Dual Attention Network for Scene Segmentation
Abstract
Unlike previous works that capture contexts by multi-scale feature fusion.
Author propose Dual attention:
adaptively integrate local fetures with their global dependecies
two types of attention model
spatial dimension
selectively aggregates the feature at each position by a weighted sum of the features at all positions.
通过对所有位置上的特征进行加权和,来选择性地聚合每个位置上的特征。
channel dimension
selectively emphasizes interdependent channel maps by integrating associated features among all channel maps.
通过整合所有通道图中的相关特征,选择性地强调相互依赖的通道图。
在公开的有挑战性的三个数据集上获得了 state-of-the-art 的水平:
- Cityscapes
- PASCAL Context
- COCO Stuff dataset
介绍
(需求)
场景分割目标就是进行解析不同的图像区域,包括连续的物体(天空、道路、草地)和离散的物体(人、汽车、自行车)。
前人工作
CNN 方法在这上面的表现
通过结合不同的扩张卷积和池化操作生成的特征图来聚合多尺度上下文。
通过扩大卷积核,编解码器结构融合中高层语义特征。
他们可以进行目标检测,但缺点:
它们不能在全局试图中利用对象或者视图之间的关系,这也是场景分割的必要条件。
RNN 方面
提高了场景分割精度。利用了 2D 长短期记忆 LSTM 网络来捕捉标签复杂的空间依赖关系。用定向无环图的循环神经网络来捕捉局部特征上丰富的上下文依赖性。
缺点:这些方法捕捉的全局关系隐含在循环神经网络中,其有效性依赖于长期记忆的学习结果。
RNN
RNN 缺点:
梯度消失
- 误差反向传播时很容易消失
- 特征正向传播时也容易消失
梯度爆炸
- 直接把整个网络搞翻车了
解决方法
双注意力网络
重点是使用了注意力机制,注意力机制在 CNN 和 RNN 中也有,但是具体来说它们的注意力机制太弱了。不够把握宏观大局,在细分局部把握上也具有一定的距离等的局限性。
位置注意力模块
捕捉任意两个位置之间的依赖关系。
对某个位置的特征,通过对所有位置的特征进行加权求和聚合更新,权重由对应两个位置之间的特征相似度决定。
任意两个位置都可以进行相互改善,不必考虑它们在空间维度上的距离。
不必考虑空间距离上的关系,这也是 attention 机制所具有的特点。
通道注意力模块
使用相似的自注意力机制捕捉任意两个通道图之间的通道依赖性,并以所有通道图的加权和更新每个通道图。
最后将上面的两个注意力模块的输出进行融合,进一步增强特征表示。
在处理复杂场景时比前人工作更好。
对于不明显的对象的特征提取会更好(例如突出对象(汽车、建筑)的上下文会损害不明显对象的标签),注意力机制有选择的聚合不明显对象的相似特征,来突出其特征的表现,避免突出对象对其的影响,以至于其特征会被忽略掉。
不同位置的特征应该对予以相同对待。
模型对于任何尺度的相似特征从全局上予以适应性的整合。
将空间和通道相关行予以整合考虑,场景能够在长距离的依赖中获利。
主要贡献总结
- 提出了双注意力机制,空间上的和通道上的,提高场景的特征区分度能力。
位置注意力模块通过对于空间和通道模块的特征提取,对于通过模型的丰富的上下文依赖进行局部特征提取,显著提高分割的结果。
在流行的数据集上取得了 state-of-the-art 的结果。
相关工作
CNN 在语义分割方面取得的巨大进展。
对于增强上下文的已有模型:
Deeplab2/3 提出的空间金字塔池化,由不同的扩张率的平行扩张卷积组成。
PSP-Net 设计了金字塔池化模块来收集有效的上下文先导,包含不同尺度的信息。
编解码器结构融合了中高水平的语义特征获取不同尺度的上下文信息。
DAG-RNN 用循环神经网络建立有向无环图模型,捕捉了丰富的上下文依赖性。
PSANet 通过卷机层和空间维度的相对位置信息来捕获像素间的关系。
OCNet 采用了具有 ASPP 的自注意力机制探索上下文的依赖性。
EncNet 引入了通道注意力机制来捕获全局上下文。
自注意力机制
Google 的 Attention is all you need 将 attention 机制发扬光大。
GAN 生成式对抗网络对于 attention 机制的应用学习有了更好的图像生成器。
Non-Local Neural Networks 与attention 相关的工作,探索了视频和图像在时空维度上非局部操作的有效性。
Dual Attention Network 双重注意力网络
此份工作注意是在语义分割领域对于 attention 机制的应用,在空间和通道维度上对于更长的上下文信息获取,首次提出了一个通用的网络架构。
引用自注意力机制解决传统的 CNN 卷机网络对于 receptive field 局部接受场在相同标签的像素上所对应的特征可能会产生差异的问题,即 CNN 不能很好的把握相同的局部信息,这会影响某些情况下的识别精度。
通过注意力机制将特征将全局上下文信息进行联系,提高了适应性增强长范围的上下文信息的能力,提高了对于语义识别的特征代表。
首先对图片进行一个有所改进的尽可能保留了更多细节的残差网络 RESnet 生成对于像素级的预测特征,然后分别进入两个注意力机制模块,在两个模块里进行了如下操作:
- 首先进行卷机层获得再次降维的特征
- 进行空间衰减矩阵操作,就是将特征中任意两个像素之间的空间关系进行建模
- 注意力生成矩阵与原始特征矩阵作乘法
- 对上述生成的矩阵和原始特征矩阵进行元素求和运算
得到了长范围上下文的最终表现