基于深度学习的视觉问答系统关键技术研究

daixie 2020-05-24 968 0

　　摘要

　　视觉问答（Visual Question Answering，VQA）需要图像场景理解、问题语义理解和复杂的跨模态语义关联。其中，注意力机制常用于在图像中找出问题相关的答案。然而，目前大部分方法将问题看做是一个整体或者是词汇序列，这种方式无法建模出问题的推理结构，难以应用于复杂场景的推理。具体来说，以往的编码方式无法捕捉词汇对之间的约束关系，使得模型会对图像中的目标匹配失误，本研究提出约束感知的图编码网络（Constraint-Aware Graph Encoding Network，CA-GEN），用于将问题解析为语法依赖树，并且构建语法图。然后，本研究采用图卷积网络（Graph Convolution Network，GCN）来编码词汇之间的约束关系。对于图像，本研究将每个图片编码成隐式关系图（Implicit Graph）和空间关系图（Spatial Graph），并分别通过图注意力网络（Graph Attention Network，GAT）来学习目标之间的关系。通过建模词汇约束关系和目标关系，本研究模型能够实现准确地目标对齐。

AI智能机器人

　　本研究在VQA 2.0数据集上评估了提出的模型，并且实现了比较有竞争力的结果。更进一步，本研究进行了更深层的研究，并表明词汇的约束建模有利于更好地理解问题以及目标定位。

　　关键词：视觉问答；图卷积网络；图注意力网络；依赖树

　　Abstract

　　Visual Question Answering (VQA) requires a fine-grained understanding of image scenes, question semantics and complicated cross-modal interactions. Attention mechanism is wildly used to find question-related clues in images. However, most approaches treat question as a whole or a word sequence, which arguably insufficient to model the inference structure of questions required for complex scene reasoning. Thus, they may fail to capture the constraints and relations of word-pairs and tend to mismatch the target in images. In this paper, we propose a Constraint-Aware Graph Encoding Network (CA-GEN) to encode the constraints of word-pairs, which parses each question into a dependency tree and constructs a syntactic graph. Then, we encode the word constraints with edges features via a syntactic Graph Convolution Network (GCN). As for images, we encode each image into implicit and spatial graphs, which are separately fed to Graph Attention Network (GAT) to learn the relation-aware object representation. By modelling word constraints and object relations, our model enables fine-grained object inference and alignment.

　　We validate our model on VQA 2.0 dataset and achieve a competitive result compared to state-of-the art models in this benchmark. Further investigations demonstrate that modelling constraints between words leads to better question understanding and object groundings.

　　Key Words：Visual Question Answering; Graph Convolution Network; Graph Attention Network; Dependency Tree

　　摘要 Ⅰ

　　Abstract Ⅱ

　　1 介绍 1

　　1.1 视觉问答历史 1

　　1.2 研究构想 2

　　2 相关研究工作 4

　　2.1 视觉问答 4

　　2.2 图编码 6

　　3 约束感知的图编码网络 8

　　3.1 图像编码 9

　　3.1.1 问题相关和位置感知的目标表示 9

　　3.1.2 图注意力网络 9

　　3.1.2.1 隐式关系图 10

　　3.1.2.2 空间关系图 11

　　3.2 问题编码 11

　　3.2.1 前后文感知的问题表示 12

　　3.2.2 约束感知的图卷积网络 12

　　3.3 跨模态注意力模块 13

　　3.4 融合和预测 15

　　3.4.1 自注意力汇聚 15

　　3.4.2 融合和预测 15

　　4 实验 17

　　4.1 数据集介绍 17

　　4.1.1 Visual Question Answering（VQA） 17

　　4.1.2 VQA-CP v2 17

　　4.2 实验设置 18

　　4.3 正交实验 18

　　4.4 测试评估结果 19

　　4.5 可视化样例 20

　　5 结论 22

　　致谢 23

　　参考文献 25

　　1 绪论

　　1.1 视觉问答历史

　　最近十年见证了计算机视觉和自然语言处理领域巨大的进步，随着深度学习的快速发展，深度学习在两个领域中都有了许多突破和非常大的进步。除了在各自的领域中的突破式进展，近几年，一些跨模态的任务，比如图像文本生成（Image Caption）[1]、文本-视频检索（Text-to-Video Retrieval）[2]和视觉问答（Visual Question Answering）[1]等任务都受到了两个领域研究人员的极大关注。这些任务的关键点在于它们都需要文本/视觉的语义理解能力以及跨模态的理解能力，其中，模态表示信息的存在方式，计算机视觉研究的对象是以视觉信息存在，自然语言处理研究的对象是以文本信息存在。除了简单的跨模态对应能力，更进一步的，还需要常识推理能力，由此，模型就有能力去解决一些跨模态问题。图像文本生成主要是模态的转换任务，也就是需要根据视觉模态的图像，来生成文本模态的文本语句；文本视频检索则是文本模态和视频模态两个模态之间的对应问题；视觉问答任务则不仅需要视觉模态与文本模态的对应，也需要模型能够学习一些常识知识，从而有利于模型的答案推理和预测。

　　本文主要研究视觉问答任务，视觉问答任务定义为给定一幅图像以及和该图像相关的问题，模型需要回答该问题，答案一般使用文本形式给出。一般来说，视觉问答模型需要理解图像中的场景内容（比如图像中存在哪些目标、是何种背景等等）以及问题的语义（比如问题的类型、是否需要推理等等），然后基于跨模态的关联知识，来从图像中找出问题相关的线索，从而来生成正确的答案。

　　目前大多数视觉问答模型都遵循一个通用的融合框架。在这个框架中，视觉问答模型需要分别对图像和问题进行编码，然后学习得到联合的多模态表示，这种多模态表示能够表示出两个模态的关联信息并能够解决特定的跨模态任务。特别的，目前大多数视觉问答模型采用卷积神经网络（Convolution Neural Networks，CNN）来提取图像的向量表示，并采用门控循环单元（Gated Recurrent Unit，GRU）[3]、长短期记忆网络（Long Short Term Memory，LSTM）[4]等序列模型将问题编码成语义向量[5, 6]。这两种编码操作能够分别将图像和文本编码为向量表示，分别表示图像和文本的语义内容。然后，通过融合操作（比如求和、按元素相乘，双线性池化等等）来得到多模态的联合表示，并直接将其用于预测答案。为了提升图像表示的能力，一些研究者采用目标检测网络（比如Faster R-CNN[7]）来提取图像中的目标特征，并构建场景图来表示图像。然后将图神经网络应用于场景图，来生成前后文感知的目标表示或者在图上进行推理，从直观上来看，这种场景图的表示方法有利于模型更加深刻地理解图像的内容，从而有利于问题的回答。对于问题，目前大多数模型仍然采用递归神经网络（Recurrent Neural Networks，RNN）来将问题编码成一个语义向量或者前后文相关的词向量，这个语义表示句子的语义，并用于后期融合和预测。

　　1.2研究构想

　　直观来看，对图像表示采用场景图能够实现目标之间的关系建模，能够帮助模型更好的理解图像内容，从而有利于视觉理解。然而，对于问题编码，目前大多数研究者采用序列模型，比如GRU或LSTM来生成语义向量，这种方法直接将问题表示成单一的语义向量，显然，这种方法将问题视作一个整体，无法涵盖丰富的语义信息，无法编码问题的推理结构以及词汇对之间的约束关系，由此可能无法准确地理解文本的约束语义，从而会导致目标和词汇之间的错误匹配。比如在图1中，有四个穿着不同颜色衣服的女人在不同的位置，给定问题“What color is the shirt of the woman beside the table？”，对人来说很容易理解问题的语法结构并定位出图像中的目标：首先找到“table”，然后搜索周围区域（“beside”），并根据问题（“woman beside the table”）定位出目标（“woman”）。传统的序列编码模型忽略了“woman”和“table”之间的依赖关系，即两者的空间关系是“beside”，从而可能会导致目标的错误匹配。另外，除了多目标的场景，许多问题中都存在词汇之间存在约束关系的情景，直观上看，以往的问题编码模型中没有考虑到问题中存在的这种约束语义，如果能够在问题编码模型中考虑到这些词汇约束的因素，那么对应于图像模态中的目标之间的关系，会更有利于目标的定位，从而更准确地得到答案。

　　基于这个观察，为了建模词汇之间的约束关系，本研究提出通过将问题解析为依赖树，依赖树能够提取出问题中词汇之间的依赖关系，和本研究任务所需的词汇之间的约束关系非常相似，因此，通过对问题的依赖树解析，来对词汇之间的约束关系进行编码。最终，能够实现将问题中的约束信息编码进词汇的语义向量中。

　　为了能够生成约束感知的问题表示，本文根据问题的依赖树构建语法图，并采用约束感知的图卷积网络来编码和更新词向量表示，从而能够将约束语义编码进词向量中。在视觉模态，为了编码目标之间的关系，本文提出采用目标检测网络检测出图像中所有的目标，并基于检测出的目标和目标的空间位置，构建出目标的全连接关系图（隐式关系图和空间关系图），并采用图注意力网络来学习得到目标与目标之间的依赖关系，并更新目标的表示，使得每个目标都能够汇集周围的邻域信息，具有更加丰富的语义。通过以上文本模态中词汇约束关系的编码，以及视觉模态下目标之间关系的编码，使得两个模态有更加一致的对应关系，从而来提升模型对两种模态的理解能力。

　　2 相关研究工作

　　2.1 视觉问答

　　近几年来，视觉问答（Visual Question Answering）获得了极大地关注，总的来说，视觉问答框架可以分为三个部分：表示（Representation）、融合（Fusion）和预测（Prediction）[8]。其中，表示就是将图像和问题表示为特征向量，有利于机器理解和处理，融合就是将图像和问题的特征向量融合成一个能够同时表征两个模态内容以及关联关系的与特定任务相关的统一向量，预测就是根据前面生成的联合向量来完成相应的任务，比如在视觉问答任务中就是预测得到问题的答案。在研究早期，图像和问题分别被编码成单一的语义向量，然后通过多模态融合方法融合成一个多模态向量，并用于预测答案。随后，为了增强多模态联合表示的表达能力，一些研究者从多模态融合的角度出发，采用双线性融合来学习图像-问题对的联合表示[9-12]，双线性融合具有非常强的融合表达能力，但是按照传统的计算方法，该融合模式的参数量非常大，这使得原始的双线性融合不适合在深度学习上的应用，为此，许多研究者从数学的矩阵分解的角度考虑，将双线性融合的参数使用矩阵分解的方法进行降维，从而能够降低参数量，并应用于深度学习模型中，实现了参数量和表达能力的平衡，使得模型能够在较小的参数量的情况下，实现比较好的融合效果。

　　然而，上述这种直接的方法将输入表示为一个单一的向量，在每个模态中，单一向量的表达都会忽略模态内丰富的结构化的内容，在模态间，不可避免地会忽略问题和图像中丰富的语义信息和关联信息。为此，一些研究者提出在编码阶段采用注意力机制来将最相关的信息编码进语义向量，在这种情况下，图像的不同区域被认为有不同的语义表示，而且与问题的相关性有强弱之分。Yang等人[13]叠加多个文本到区域（text-to-region）的注意力层来增强与问题相关的视觉特征，这个注意力层相当于实现了对图像中特征的选择，选择出与问题最相关的图像区域，而采用多层叠加的方式相当于多次地选择最相关的图像内容，逐步地细化对图像内容的选择过程。Lu等人[14]考虑到两个方向的注意力（text-to-region、region-to-text），并且提出联合注意力机制来选择最相关的词汇和区域特征，这种方式不仅能够选择出最相关的图像区域，还能选择出最相关的文本词汇，在两个模态中都进行相关性选择，增强模型的细化程度。Anderso等人[1]结合自顶向下（top-down）和自低向上（bottom-up）的注意力来注意到显著性区域和与问题相关的区域，其中，自顶向下的注意力就是根据问题的语义描述来对图像中的目标求注意力分布，这种注意力分布是和顶层任务相关的，自低向上的注意力就是直接从图像中预先进行检测出显著的目标，即可能的候选目标。为了增强对于小物体的注意能力，Huang等人[15]从多个粒度来计算文本对区域的注意力权重，由此有利于更精准的目标定位，从词汇和目标标签之间的粒度，首先检测出图像中存在的目标以及对应目标的文本标签，这种文本标签进一步可以在文本模态的嵌入空间中求相似度，从而实现在该粒度下的注意力，从词汇和视觉目标的粒度，该研究采用多层感知机的方式将图像中目标的视觉特征和目标的文本标签进行相似度学习，使得目标的视觉特征和文本标签特征具有非常强的对应关系，从句子和视觉目标的粒度，类似于研究工作[1]中的方法，直接采用句子的文本表示，来对图像中检测出的目标表示求注意力分布。直观上来看，注意力机制使得模型能够集中于关键的区域，使得最终得到的联合表示具有更加准确的特征。

　　为了显式地建模推理过程，有研究者采用组件化模型和记忆模型来构建推理流程。Andreas等人[16]人工地定义了五种推理模块，并且基于依赖树的结构动态地构建推理模型，该研究工作首先将问题解析成依赖树，将依赖树看做是推理的过程，并基于依赖树动态地构建模型，从而实现推理。Ca等人[17]将依赖树看做是推理流程，并沿着依赖树在每个树节点中应用三种通用的模块。Hudson等人[18]设计了一个记忆单元，并重复地控制并更新单元的记忆信息。其中，控制单元用于从知识库中搜索相关证据信息，并将信息融合进记忆单元中，记忆单元用于保存到某一时刻为止，模型从知识库中提取到的信息，应用于视觉问答任务上，其中的知识库就是图像，模型不断地根据问题，从图像中提取有用的信息，并更新模型的记忆单元，最终来预测答案。然而，这些模型大多数需要将问题解析成依赖树，即依赖于问题的显式依赖树结构，并且限定于推理场景。为了减少人工设计推理单元的过程，本文的方法考虑到依赖树本身存在结构误差，因此，本文并不显式地按照依赖树的结构进行建模，而是基于问题的依赖树来对词汇之间的依赖关系进行建模，并采用图卷积网络对依赖关系进行学习和编码，将这种依赖关系表示在词向量中，并随着模型的学习而不断地更新。

　　2.2 图编码

　　目前，一些研究者试图采用图表示和推理模型来解决视觉问答任务，比如，不同于采用高级的语义向量来表示图像，许多研究者采用场景图来编码图像信息。细致地说，首先采用目标检测网络（比如Faster R-CNN），在Visual Genome数据集[19]上进行预训练，使得目标检测模型能够检测出图像中一些显著的视觉目标，之后，将检测模型用于检测出图像中所有的目标。这些目标之后用于构建隐式关系图或显式关系图，其中，节点表示目标的特征，边表示目标之间的关系，这种目标关系可以直接隐式学习或者通过视觉关系抽取模型来显式地抽取出来。

　　直观上来看，相比于将图像编码成一个全局的向量表示，图表示有利于建模目标之间的关系，由此更有利于理解图像场景内容。目前有部分工作在视觉问答任务上采用场景图。Hedi等人[20]从图像中检测出目标并构建全连接图，目标之间的关系通过成对地计算出来，并用于调整目标表示。该研究工作的亮点在于，其对目标之间的关系建模采用双线性融合的方式，即通过对两个目标的视觉特征向量和位置特征向量采用双线性融合的方式来生成目标关系表示，关系表示进一步用于更新节点的目标表示，使得每个目标表示都能够感知到周围的信息。Li等人[21]采用三种类型场景图：语义关系图、空间关系图和隐式关系图。这些图分别于问题语义进行融合和更新，最终将预测结果结合起来预测最终的答案。语义关系图采用图像的场景图抽取模型来提取出图像中存在的目标和目标关系，语义关系图中目标之间的关系有显式的文本标签，空间关系图从二维空间中提取目标矩形框之间的关系，并构建全连接图，相当于从二维空间的角度理解图像的场景内容，节点之间的关系是二维的相对位置关系，隐式关系图直接采用全连接方式连接所有的目标。Guo等人[22]将问题词汇和目标词汇都表示成图，并提出内连接图和外连接图，来对问题和图像之间关联关系进行建模和学习。其中，内连接图用于学习模态内的关联关系，外连接图用于学习模态间的关联关系。

　　除了在图像表示中采用场景图之外，树形或图形的语义结构在一些任务中也被广泛使用。比如，给定一个检索语句，推理表达式定位（Grounding Referring Expression）任务[23]尝试在图像中定位出指定的目标，在该任务中，一个图像中往往存在多个同类的目标，而给定的文本表达式会指定其中某一个特定的目标，这种情况下，模型需要充分理解图像内容以及文本结构，从而理解从文本到图像的指代关系。为了建模句子的推理结构，一些研究者采用语法工具来将检索语句解析成树或图。比如Cirik等人[24]采用Stanford Parser[25]将句子解析为依赖树，并沿着依赖树的路径来调整目标定位结果，从叶子节点开始，逐渐往根节点进行聚合，相当于按照依赖树的结构进行逐步推理和定位。Hong等人[26]构建RvG-Tree并采用Tree-LSTM[27]来编码树结构。在跨模态视频检索任务中，Zhang等人[28]提出采用图卷积模块来编码文本的依赖树，并生成依赖感知的文本表示。该研究工作考虑到视频帧之间存在前后时序关系，在文本中，词汇与词汇之间也存在关系，因此，通过编码文本中的词汇依赖关系以及视频中帧与帧之间的关系，有利于两种模态之间的关联和对应。Zhang等人[29]将文本编码成时序树，并采用Tree-LSTM来编码树结构，生成具有结构化语义的文本表示。

　　本次研究工作受到[28]和[21]的启发。为了编码问题中的词汇依赖关系，本文采用约束感知的图卷积网络来生成词汇表示，从而将词汇之间的依赖关系编码进词汇表示中，并可以直接基于模型来学习，减少了人工定义规则的繁杂过程。对于视觉目标的编码，本文按照[21]的方法，构建隐式关系图和空间关系图来生成前后文感知的目标表示，这种目标表示包含有周围区域的信息，使得目标表示向量具有更加丰富的信息。

　　3 约束感知的图编码网络

　　本研究的视觉问答模型在图2中显示出来。本文首先提出视觉问答任务的定义：给定一个图像和一个与图像内容相关的问题，本研究任务的目标是预测出一个答案，能够匹配真实答案。按照视觉问答任务中常用的方法，预测的答案是从一个预定义的答案集合中选择出有最高得分的答案作为预测的结果，形式化表示如下：

　　其中，表示视觉问答模型的参数。在本文的实验中，本研究采用Faster R-CNN从图像中提取出目标的特征集合，其中，表示第个目标的特征向量。本文也使用目标的边界框来表示目标的空间特征，其中，表示左上角坐标，表示矩形框的宽和高。对于问题的编码，本文采用双向GRU和GCN来得到语法感知的词向量以及问题的语义表示。

　　图2 本文提出的CA-GEN模型结构示意图

　　3.1 图像编码

　　正如图1中所示，图像编码模块将图像中的目标视觉特征和位置特征集合作为输入。首先对矩形框的特征使用图像的大小进行归一化处理，得到，其中，是图像的宽、高和面积。之后，参照[21]的方法，将每个目标看做节点，从而可以构建全连接图来建模目标之间的关系。在图中，有个边，每个节点对应于图像中的一个目标，并将目标视觉特征和矩形框特征作为节点特征。在本研究中，我们构建出了目标之间的隐式关系图和空间关系图，从而能够从不同的角度和方面建模目标关系，有利于更好地生成目标表示。

　　3.1.1 问题相关和位置感知的目标表示

　　为了使目标表示同时融合问题语义信息和位置信息，本文需要将问题的语义向量和位置特征向量融合到目标表示中。为了简化这个融合的过程，本文直接对采用向量连接的方式，从而得到问题相关和位置感知的目标表示：其中，分别表示问题的语义向量、第个目标的RoI特征和矩形框特征。

　　不同于研究工作[21]中采用多层感知机来融合，这种直接连接的策略无需额外参数并且使得节点特征能够同时融合问题语义和视觉特征。因此，图节点包含了两个模态丰富的信息，使得节点在更新的过程中，可以学习到和问题相关的表示。除此之外，每个节点表示一个特定的目标，模型可以学习到与问题相关的局部区域特征。

　　3.1.2 图注意力网络

　　为了建模目标之间的关系，图注意力网络用于编码和更新图。类似于[21]，本文构建隐式关系图和空间关系图来计算目标之间的注意力权重。在隐式关系图中，目标之间采用全连接的方式进行连接，目标之间的关系采用模型进行学习，注意力权重根据每一对目标对的视觉特征和位置特征进行计算。对于空间关系图，本研究中采用目标的在二维图像上的相对几何关系作为目标之间的关系标签，可以看出，目标之间的关系是对称的，而且构建的目标关系图的关系边含有关系标签，本文参照[21]的方法，本文将目标的这种矩形框相对几何位置关系分成11类。然后将这11类空间关系作为边标签，并构建空间关系图。

　　3.1.2.1 隐式关系图

　　基于构建的目标的隐式关系图，本文可以基于目标的视觉特征表示和位置表示来计算出目标之间的注意力权重。形式化来看，给定一个目标对，视觉注意力权重根据计算得到，公式为：

　　其中，是映射矩阵，表示第个目标和第个目标的视觉相关性分数。为了衡量几何位置的相关性，本文基于每一个矩形框对计算出目标对之间的位置相关性分数：

　　其中，表示双线性融合，用于将维的空间隐式关系转化为一个权重值，操作将目标之间弱的空间关系直接置零。根据本文得到的视觉和空间相关性，本文将两种相关性值结合起来计算出目标对之间的最终的注意力权重：

　　基于计算得到的注意力权重，本文能够通过加权求和的方式来更新图的节点特征：

　　其中，表示邻居节点信息的映射矩阵，表示非线性激活函数（比如ReLU）。为了捕捉目标之间多方面的关系，本文采用多头注意力机制以及非线性激活的方式来进行计算：

　　其中，是多头注意力机制的头数，表示每个注意力头的映射权重。最后，本文采用残差连接，得到前后文感知的目标特征。

　　可以看出，最后得到的每一个节点表示中，以不同的权重汇集了周围目标的信息，从而使得每一个目标都能够感知周围空间的信息，丰富了目标表示中的语义信息。

　　3.1.2.2 空间关系图

　　基于构建的空间关系图，本文考虑到了目标的相对几何关系来计算目标之间的注意力权重。与隐式关系图不同的是，空间关系图的边含有标签并且是有向的。因此，本研究结合节点的特征和边特征来计算目标之间的关系权重。形式化公式如下：

　　其中，是根据每条边的方向相关的转换权重，是与边标签相关的偏置项。

　　由于图注意力机制的编码能力，每个目标都能够感知到周围目标信息。另外，通过将问题语义结合到节点特征中，图编码器能够学习得到与问题相关的目标关系。因此，最后生成的目标表示即能够包含局部的目标信息，还能够按照不同的权重汇聚周围区域的信息，相当于能够有选择性地感知整个图像的内容。除此之外，由于每个向量都融合有空间位置向量和语义向量，使得每个目标表示都能够融合问题的语义以及蕴含其自身的空间位置信息。通过结合隐式关系图和空间关系图对目标关系的编码，使得模型能够从隐式关系和显式空间关系上学习到目标的关系特征，从而有利于更加准确地捕捉目标之间的关联。

　　3.2 问题编码

　　正如前文所叙述，为了在多目标场景中实现精准的定位，本文不仅需要编码视觉目标之间的关系，还需要编码词汇之间的约束关系。然而，大部分视觉问答模型采用序列模型，比如GRU或者LSTM，来编码问题，这种方式忽略了词汇之间的语法关系。受到[28]的启发，本文将问题编码成依赖树，然后构建依赖图，并在依赖图上采用图卷积网络来编码词汇之间的依赖关系，从而得到依赖感知的词汇表示。直观来看，生成的表示包含词汇之间的约束信息，有利于更准确地在图像中定位目标。

　　3.2.1 前后文感知的问题表示

　　为了得到词向量表示，本文首先从预训练的300维GloVe词向量[30]中得到词向量，表示为，其中，表示第个词汇的GloVe向量表示，采用预训练词向量有利于模型能够从一个比较好的初始化条件开始进行优化。然后，本文采用双向GRU对词汇序列进行编码，学习得到前后文相关的词向量表示。特别的，在每一个时间步，本文结合前向和反向GRU的输出来得到问题表示，形式化表示如下：

　　其中，分别表示第个词汇位置前向和反向GRU的输出隐藏状态。由此，本文通过对两个向量进行连接得到最终的向量，以及。在模型训练优化过程中，预训练词向量也会随着模型进行优化，从而能够学习到和该任务相关的更优的词向量表示。

　　3.2.2 约束感知的图卷积网络

　　正如前文所述，序列模型无法编码出词汇之间的依赖关系，因此，本文采用依赖树来构建语法图，并采用图卷积网络来将依赖信息编码进词向量表示。类似于[28]，本文首先采用Stanford Parser对问题进行解析成依赖树。依赖树解析工具可能不能够完全正确地解析出句子的依赖结构，但是，本文的研究工作主要关注这种依赖编码对视觉问答模型的影响，因此，依赖树解析工具对模型引入的误差在该研究中忽略不计。

　　形式化来看，本文将依赖图表示为，其中，分别表示节点（词）和边（依赖关系）。本文和[28]采用相同的模型设置，考虑到图上的三种方向，即每条边有三种传递方向，包括依赖树方向、逆依赖树方向和自连接方向，每一条边都有特定的标签。在本研究中，我们将40种依赖关系以及自连接关系，即总共41种依赖关系，来作为依赖图中边的标签。

　　在构建上述的依赖图之后，本文随后采用图卷积网络来编码词汇之间的依赖关系。与传统的图卷积网络不同的是，本文考虑到了边的信息，而且边的有向的。特别的，在本文的模型中，每条边的标签都被编码成一个向量，然后图卷积网络通过汇集周围节点和边的信息来更新节点表示，公式表示为：

　　其中，表示非线性激活函数（比如ReLU），表示依赖树边的方向。有三种类型的边：前向、反向和自环。前向和后向边分别沿着和逆着依赖关系方向，自环边是自连接方向。每一个方向都有独立的训练参数，由此产生三个转换矩阵。表示边的标签表示。为了捕捉多跳的依赖关系，本文可以叠加多个GCN层来得到高层的约束信息。为了解决梯度消失的问题，本文对GCN的输入和输出增加残差连接，公式如下：

　　其中，是叠加的GCN的层数。最后，本文将作为最终的问题表示。

　　3.3 跨模态注意力模块

　　根据前述得到的前后文感知的目标特征表示以及约束感知的词向量表示，本文采用跨模态注意力来实现视觉模态和文本模态的关联交互。为了捕捉更细粒的跨模态关系，本文将跨模态注意力应用于两个层次：目标-词汇层次和视觉概念-文本概念层次。目标-词汇层次实现单独的目标和词汇之间的对应（），视觉概念-文本概念实现目标关系对和词汇约束短语之间的对应（）。前者主要是直接从词汇和目标的层面计算视觉模态和文本模态的关联关系，但是这种方式没有考虑到模态内存在特定的约束，后者考虑到模态内的约束和关系。形式化来说，假设本文得到的图像表示和问题表示分别为和，那么先计算关联矩阵：

　　其中，是可训练的权重，表示第个目标和第个词汇的关联分数。之后，本文对矩阵分别按行和按列进行归一化，得到跨模态注意力分布：

　　其中，和分别表示是图像对文本和文本对图像的注意力分布。由此，本文可以计算出视觉和文本的注意力特征，并与原模态特征进行融合，从而得到跨模态的相关性信息，公式表示如下：

　　其中，表示融合函数，在本研究中，本研究采用向量连接以及MLP作为融合方法，并然输出维度与输入维度相同，使得该模块支持残差连接。

　　利用上述的跨模态注意力模块，本研究将该模态应用于多层次的跨模态关联交互中，对于目标-词汇层次，本研究分别取原始图像特征和双向GRU的输出作为跨模态注意力的输入，对于视觉概念-文本概念层次，本研究分别将前后文相关的目标表示和约束感知的词向量表示来作为跨模态注意力的输入。前者的跨模态注意力从浅层对视觉模态和文本模态进行关联和对应，而后者中，各个模态内已经进行了关系编码或约束编码，因此，两种模态的表示具有更加复杂的模态信息，在该层次进行跨模态注意力有利于更加精准地实现跨模态关联学习。通过结合多个层次的跨模态注意力，该模型可以得到融合有跨模态信息的高层表示。

　　直观上看，跨模态注意力机制使得模型能够专注于跨模态相关的内容，本研究叠加了多个编码层，并将跨模态注意力应用于多层的图像和文本表示上，使得模型支持更加复杂的跨模态对齐和精准的目标定位。

　　3.4 融合和预测

　　3.4.1 自注意力汇集

　　在图编码模块和跨模态注意力模块之后，可以得到高层的图像表示和文本表示，其中包含丰富的跨模态信息。在将它们输入到分类器之前，模型需要将两个模态的特征聚集为单一向量。由此，本文采用自注意力机制来得到问题表示：

　　其中，是问题的长度。然后本研究将问题表示和每个目标表示进行连接，并利用文本到目标的注意力来得到聚集的视觉特征：

　　基于以上的方程，本研究可以将视觉特征和文本特征聚合成单一的语义向量表示，分别得到和。直观上看，这种自注意力机制实现的是模态内关键信息的汇集，在文本模态中，相当于汇集问题中关键词的信息，在视觉图像模态中，相当于注意于图像中关键的目标特征，忽略掉其余的背景或者不相关目标信息，这种方式使得模型能够专注于更加突出的特征，从而准确地预测出答案。

　　3.4.2 融合和预测

　　在得到聚集的向量表示之后，可以采用多模态融合操作来融合两个向量，得到多模态表示：

　　其中，表示融合方式，表示融合模型的训练参数。在该研究工作中，本研究使用Tucker融合方法[9]融合两个模态的向量表示，最后得到的联合表示输入两层全连接层（ReLU非线性激活）以及sigmoid层，输出所有答案的预测概率。最后，类似于[1]，本研究使用二值交叉熵来计算预测的损失。相当于本研究最后会预测每一个候选答案是否为正确答案的概率，然后，本研究取概率最高的候选答案作为模型最终的预测答案。

　　在训练阶段，图像中目标两种图表示（隐式关系图和空间关系图）分别单独进行模型训练，由此，可以得到两个单独的模型。在推理阶段，本研究结合两个模型，采用加权求和的方式来得到最终的预测概率。特别的，最终的预测答案的概率计算如下：

　　其中，是超参数（），是隐式关系图模型和空间关系图模型预测的答案的概率。最终，取结合概率最高的候选答案作为本研究模型最终的预测结果。

　　4 实验

　　在这一章中，本研究在VQA 2.0和VQA-CP 2.0数据集上评估本文提出的模型，因为大多数答案形式时单词或者短语，视觉问答任务可以看做是分类任务，可以采用准确率来评估模型表现。VQA 2.0考虑到人工打标的10个答案来计算最终的准确率。形式化来说，准确率的计算公式如下：这意味着如果至少三个人工标签给出答案ans，那么准确率就是100%。

　　4.1 数据集介绍

　　在这一章，主要介绍VQA v2数据集和VQA-CP v2数据集。

　　4.1.1 Visual Question Answering（VQA）

　　视觉问答数据集是视觉问答任务中使用最为广泛的数据集，数据集中包含来自于MS-COCO数据集[31]的图片，以及与图像相关的问题，并采用人工标注答案。问题和答案都由人工进行给出并标注，根据数据统计结果，VQA v2数据集中，每一个图像平均有3个问题，每个问题都10个人工标注的答案，而且10个答案由不同的标注者给出，因此，存在10个答案都不相同的可能性。在VQA v2数据集中，主要有三种问题类别：Yes/No、Number和Other，该数据集被分割成训练集、验证集和测试集，三个分割集的问题数量分别为443k、214k和447k，其中，测试集主要包含生产测试集（Test-dev）和标准测试集（Test-std），该数据集对于训练集和验证集会给出标注的问题答案，但是测试集不会给出答案标签。模型的表现根据线上评估的Test-dev结果而定。在本研究的实验中，本文在该数据集的训练集上进行模型训练，在验证集上调试超参数，最后取最好的模型参数在训练集和验证集上进行训练，并在测试集上测试模型表现。

　　4.1.2 VQA-CP v2

　　近几年有一些研究表明视觉问答模型趋向于利用语言偏置来预测问题的答案，VQA-CP数据集用于减少问题偏置对视觉问答模型的影响。具体来说，目前视觉问答数据集都存在答案分布不均衡的现象，而且广泛存在于训练集、验证集和测试集中，因此，这会导致模型可能学习不到真正的跨模态知识，只能学习出在问题条件下的答案概率分布，因此，该数据集主要用于减弱这种语言先验偏置问题。特别的，在VQA CP v2数据集中，每种问题类型在训练集和验证集上的分布不同，即对于同类型问题，在训练集和验证集中，答案的概率分布是不同的。VQA-CP v2数据集从VQA v2数据集中通过重新分割训练/验证集来生成，因此，该数据集的图像、问题和答案来源与VQA v2数据集完全相同。按照标准设置，视觉问答模型应该在训练集上训练，并在验证集上评估模型表现，模型的效果以验证集的效果为准。

　　4.2 实验设置

　　本研究将问题通过分词得到词汇序列，然后将词汇采用300维的GloVe词向量编码，对于在GloVe词典中的词汇，本文采用预训练词向量进行编码，对于不在词典中的词汇，本研究采用初始化为0的方式，词向量会随着模型进行优化学习。之后本研究将词向量序列输入动态的双向GRU，使得问题编码器允许动态的问题长度，因此，不需要采用词汇填充的方式将问题填充至指定长度。本研究设置GRU的隐藏层维度为300维，因此，问题编码器输出的词向量维度为600维。随后，本研究采用Stanford Parser对问题进行解析成依赖树并构建依赖图，总共有40中依赖边关系，即边的标签有40类。对于约束感知的编码网络，本研究将consGCN层数设置为1。对于图像编码器，本研究采用Faster R-CNN提取的bottom-up特征[1]，目标的视觉特征维度为2048维，并固定目标个数为36，得到目标特征。在将目标的视觉特征输入模型之前，本研究对目标特征进行L2规范化。对于图注意力网络，本研究将多头注意力机制的注意力头数设置为16，每个头的维度为。类似于[1]的处理方式，本研究保留训练集和验证集中出现频次大于9的答案，从而得到的候选答案集合大小为，在推理阶段，本研究将设置为0.5。

　　在实验中，本研究使用Adamax优化器来训练模型，批处理大小设置为128。对于学习率，本文使用0.0007作为初始化学习率，在第7个轮次后，学习率每2个轮次衰减为0.5倍，直到达到第15个轮次。为了缓解过拟合问题，本研究对每个全连接层增加dropout（p=0.2），最后的分类器，本文采用p=0.5的dropout。

　　4.3 正交实验

　　本研究在VQA v2数据集上进行正交实验，来探究提出的图编码网络对模型效果的影响。所有模型在相同的优化参数下在训练集上训练，并在验证集上评估效果。结果显示在表格1中。表格中的Imp列和Spa列分别显示出了隐式关系图模型和空间关系图模型在验证集上的准确率，Both列显示出按照概率结合权重来结合两个模型的预测概率在验证集上的准确率。表格的第一块显示出叠加的图编码层数对模型效果的影响，可以看出，单模型和结合模型的准确率都随着叠加层数的增加而提高，最好的准确率在处得到，本研究结合的模型能够超过baseline大约的效果提升，对于单模型，本研究的隐式关系图模型能够超过baseline大约，空间关系图模型能够超过baseline大约。由于训练显存限制，本研究没有给出的结果，因此，本研究直接设定。在的模型设置下，模型已经能够表现出比较好的效果。表格中的第二块显示出文本编码器对模型效果的影响，本研究将模型中的consGCN模型使用动态GRU替换，并保持模型其它部分不变，这种改动使得模型效果降低。这显示出本研究提出的consGCN的高效性。

　　表1 本研究提出的CA-GEN模型在VQA v2数据集上的正交实验结果

　　模块设置值准确率（%）

　　Imp Spa Both

　　叠加层数（）

　　0（baseline） 63.05 63.09 64.01

　　1 63.44 63.60 64.43

　　2 64.23 64.15 65.11

　　问题编码器 Dynamic GRU 63.54 63.87 64.83

　　GCN 64.23 64.15 65.11

　　4.4 测试评估结果

　　本研究将本文提出的模型同其它最近的模型在VQA v2的测试集上效果进行比较，表格2显示出评估结果。可以看出，本研究的方法在Y/N、Num和Overall准确率上都超过了baseline。最后一行显示出本研究的结合模型的测试集结果，其中，本研究的结合模型中隐式关系图和空间关系图的概率结合权重。通过比较来看，在Y/N类别上，本研究的模型相对于Block超过了0.47%，在Num类别上，本研究的模型相比于Block超过了3.07%，在Overall上，本研究的模型相比于Block超过了0.35%。在Test-std集上，本研究的模型相比于Block超过了0.34%。相较来看，本研究的模型在Num问题类型上效果的表现上提升的效果最好，在最后的可视化样本章节，本研究也展示出一个Num类型的样本。

　　表2 在VQA v2的test-dev和test-std集合上比较模型的效果。

　　Model Test-dev Test-std

　　Y/N Num Other Overall

　　Bottom-up(2018)[1]

　　81.82 44.21 56.05 65.32 65.67

　　DCN(2018)[6]

　　83.50 46.60 57.30 66.90 67.00

　　Multi-grained(2019)[15]

　　83.60 47.02 58.24 67.41 67.73

　　Block(2019)[12]

　　83.60 47.33 58.51 67.58 67.92

　　CA-GEN(本文方法) 84.07 50.40 58.11 67.93 68.26

　　为了显示出本研究提出的模型的泛化性能，本研究在VQA-CP v2数据集上进行了训练和评估，表格3显示出在VQA-CP v2数据集上的评估结果，本研究可以看出，无论是单模型还是结合模型，本研究的模型都能够超过MuRel[5]，结合模型超过了0.8%。对于隐式关系图模型，本研究的单模型相比于MuRel超过了0.35%，对于空间关系图模型，本研究的单模型相比于MuRel超过了0.15%。可以总结出，在VQA CP v2数据集上，本研究提出的模型在泛化性能上都能够超出目前最高的Baseline模型，而且通过结合两种图模型，本研究的结合模型超过了0.8%。

　　表3 在VQA-CP v2数据集上和MuRel模型比较。

　　Model MuRel(2019)[5] Imp. Spa. Both

　　Acc. 39.54 39.89 39.69 40.34

　　4.5 可视化样例

　　在图3中，本章给出两个实例在隐式关系图模型和显式关系图模型上的可视化结果，具体来说，本章在每个图片中使用不同的颜色可视化了三个目标的矩形框以及三个词汇，并给出对应的注意力权重，红色、绿色和蓝色注意力权重逐渐降低。问题的注意力权重来源于模型的自注意力汇聚计算出的自注意力分布，目标的注意力权重来源于模型的中问题对目标注意力分布。在样例的第三行，显示出隐式关系图模型和空间关系图模型的可视化样例。可以看出，本研究的模型能够专注于与问题相关的目标（比如第三行中隐式关系图示例上红框和绿框分别指示出tie和man），从而使得模型能够得到正确的结果。为了更好地理解和比较本研究的图编码模块对视觉问答模型的影响，本章移除所有的图编码模块（baseline），包括图注意力网络和图卷积网络，并将可视化结果显示在第二行中。可以看出，baseline模型会专注于一些不相关的区域或错失一些关键的目标，从而使得模型产生错误的答案。综上所述，通过以上的比较，这些可视化样例显示出图编码网络有利于视觉模态和文本模态之间的关联学习，使得视觉问答模型有更好的预测表现。

　　图3 注意力权重的可视化样例

　　5 结论

　　本文提出采用图注意力网络来编码图像中的目标关系，并采用约束感知的图卷积网络，并用于问题编码，使得模型在编码层能够理解到词汇之间的约束关系。在这个模块中，本研究考虑到了词汇之间的约束关系，这种词汇关系对应于目标之间的视觉关系，从而有利于视觉模态和文本模态之间的对应。跨模态注意力模块用于两种模态的关联对应，使得模态之间能够实现信息交互。本研究结合了两种目标的图注意力编码模型，从而获得了相比于单模型更好的模型表现。实验的结果显示出本研究的模型在VQA v2和VQA-CP v2数据集上有比较好的表现，这表明了本研究提出的约束感知的图编码网络的高效性。

标签：深度学习视觉问答论文

本文地址： http://www.hcgzc.cn/post/1087.html