Self attention 解决什么问题#

用一句话概括就是：Self attention用来解决当输入为向量的序列时的问题（像音频、文本都是经典的输入为向量序列的数据）

Self attention的输出一般有如下三种类型

N个vector产生N个label

例如输入一个句子，输出每个词的词性
N个vector产生1个label

例如输入一个句子，判断这句话蕴含的情绪为positive or negative
N个vector产生N’（N≠N’）个label

例如机器翻译，输入的句子和输出的句子词数很可能不一样

FC(Fully Connected)有什么不足#

FC也可以用来解决输出为向量序列的问题，如天气预测等等，但是它相比self attention有一些不足之处。

FC如果要充分考虑“上下文”——一个向量和它相邻的很多个向量，甚至可能整个序列一起考虑，就需要把考虑的向量串联起来，通过fully connect产生新的向量，那么参数的矩阵可能会非常大（这个在后面会解释），这可能导致很大的运算量和overfitting。

Self attention 的架构#

首先我们来看一个self attention层要做什么。

概况一下就是，一个self attention层要先算出每个向量和其他向量的关联性，这个关联性用attention score $\alpha$ 表示。然后再根据加权算出输出向量序列，值得一提的是，计算输出向量序列中的每个向量是并行的。

然后我们再看整个网络架构，经过self attention层后，产生了输出向量序列，这时候可以先对每一个向量进行fully connect，产生输入到下一个self attention层中的输入向量，然后就是重复，直至产生最终输出。

Self attention 的基本计算过程#

求attention score#

对于输入向量序列 $\mathbf{a^1},\mathbf{a^2},\dots$ ，我们以求 $\mathbf{a^1}$ 与自身及其他向量的attention score $\alpha'_{1,i}$ 为例，来说明求解流程

对 $\mathbf{a^1}$ 求 $\mathbf{q^1}$ ， $\mathbf{q^1}=\mathbf{W}^q\cdot\mathbf{a^1}$ ，其中 $\mathbf{W}^q$ 为参数矩阵，是要学习的参数
对 $\mathbf{a^1},\mathbf{a^2}\dots$ 求 $\mathbf{k^1},\mathbf{k^2},\dots$ ， $\mathbf{k^i}=\mathbf{W}^k\cdot\mathbf{a^i}$ ，其中 $\mathbf{W}^k$ 为参数矩阵，是要学习的参数
求 $\mathbf{q^1}$ 和 $\mathbf{k^1},\mathbf{k^2},\dots$ 的关联性，常见方法是向量点乘，如 $\alpha_{1,2}=(\mathbf{q^1})^\mathrm{T}\cdot\mathbf{k^2}$
对上一步求得的 $\alpha_{1,1},\alpha_{1,2},\dots$ 通过激活函数，常用softmax，最后得到attention score $\alpha'_{1,1},\alpha'_{1,2},\dots$

可以参照下图直观地理解上述步骤

求解Self attention层输出的向量#

对于输入向量序列 $\mathbf{a^1},\mathbf{a^2},\dots$ ，我们以求输出向量序列中的 $\mathbf{b^1}$ 为例，来说明求解流程

对 $\mathbf{a^1},\mathbf{a^2}\dots$ 求 $\mathbf{v^1},\mathbf{v^2},\dots$ ， $\mathbf{v^i}=\mathbf{W}^v\cdot\mathbf{a^i}$ ，其中 $\mathbf{W}^v$ 为参数矩阵，是要学习的参数
利用求得的attention score对 $\mathbf{v^i}$ 进行加权： $\mathbf{b^1}=\sum \alpha'_{1,i}\mathbf{v^1}$ ，从而得到 $\mathbf{b^1}$

可以参照下图直观地理解上述步骤

矩阵视角下的计算过程#

下面三张图非常直观地展示了

产生 $\mathbf{q^i},\mathbf{k^i},\mathbf{v^i}$
计算attention score
计算输出向量 $\mathbf{b^i}$

上面提到的矩阵视角下的计算过程可以归结为下图，我们也可以发现，对于一层self attention层而言，需要学习的参数只有 $\mathbf{W}^q,\mathbf{W}^k,\mathbf{W}^v$

前面说到FC可能在考虑整个向量序列的情况下有大量的参数，比如说输入的向量序列为10000个100x1的向量，如果在考虑整个向量序列的情况下要产生10000个10x1的向量，用FC需要的参数数量级为(10000x100)x(10000x10)，而如果用self attention，那么 $\mathbf{W^q}$ 的元素个数数量级为100x100。