计算矩阵函数的导数（以 Word2vec 为例）

Chenxiao Ma | March 8, 2018

定义

向量函数是指输入或者输出都为向量的函数。向量函数 $\mathbf{y} = f(\mathbf{x})$ 的导数是著名的雅可比矩阵：

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{pmatrix} \frac{\partial y_1}{\partial x_{1}} & \cdots & \frac{\partial y_1}{\partial x_n} \\[0.3em] \vdots & \ddots & \vdots \\[0.3em] \frac{\partial y_m}{\partial x_{1}} & \cdots & \frac{\partial y_m}{\partial x_n} \end{pmatrix}$

根据定义， $\mathbf{y}$ 的微小变动等于导数乘 $\mathbf{x}$ 的微小变动，此时的乘法是矩阵点乘。

$\underset{[m\times 1]}{\Delta \mathbf{y}} = \underset{[m\times n]}{\frac{\partial \mathbf{y}}{\partial \mathbf{x}}}\cdot\underset{[n\times 1]}{\Delta \mathbf{x}}$

矩阵函数是指输入或者输出都为矩阵的函数，矩阵函数 $Y = f(X)$ 的导数仍然要满足 $\Delta Y= \frac{\partial Y}{\partial X} \cdot\Delta X$ 。此时， $\Delta Y$ 是与 $Y$ 大小相同的矩阵， $\Delta X$ 是与 $X$ 大小相同的矩阵。那么 $\frac{\partial Y}{\partial X}$ 应该是一个张量，此时的乘法是张量点乘。假设 $Y$ 的大小是 $[M \times N]$ ， $X$ 的大小是 $[I \times J]$ ，那么这个（广义）雅可比张量的大小是 $[M \times N \times I \times J]$ 。

很直观地，这个四维张量的每一个元素都对应了一个 $Y$ 中的元素对一个 $X$ 中的元素的偏导。

$\left( \frac{\partial Y}{\partial X} \right)_{m, n, i, j} = \frac{\partial Y_{m, n}}{\partial X_{i, j}}$

在反向传播（Back Propagation）中的应用

神经网络中使用到的矩阵函数几乎都是简单的线性变换，即 $Y=wX$ 。反向传播时通常也并不需要计算出雅可比张量，而是要把它应用在链式法则中，与其他的偏导数相乘。比如神经网络最终的损失函数是 $L$ ，更新 $X$ 时，只需要知道 $\frac{\partial L}{\partial X}$ ，也就是 $\frac{\partial L}{\partial Y} \frac{\partial Y}{\partial X}$ 即可。假如 $\frac{\partial L}{\partial Y}$ 已知，那么此时这个乘积其实可以直接用 $w^T \frac{\partial L}{\partial Y}$ 计算。假设 $Y$ 的大小为 $[H \times J]$ ， $w$ 的大小为 $[H \times I]$ ， $X$ 的大小为 $[I \times J]$ ，证明如下：

首先损失函数 $L$ 是一个常数，所以 $\frac{\partial L}{\partial Y}$ 是一个大小为 $[1 \times (H \times J)]$ 的张量， $\frac{\partial L}{\partial X}$ 是一个大小为 $[1 \times (I \times J)]$ 的张量。对于 $X$ 的每一个元素：

$\underset{[1 \times 1]}{\frac{\partial L}{\partial X_{i, j}}} = \underset{[1 \times (H \times J)]}{\frac{\partial L}{\partial Y}} \underset{[H \times J]}{\frac{\partial Y}{\partial X_{i, j}}}$

$\frac{\partial Y}{\partial X_{i, j}} = \begin{pmatrix} \frac{\partial Y_{1, 1}}{\partial X_{i, j}} & \cdots & \frac{\partial Y_{1, J}}{\partial X_{i, j}} \\[0.3em] \vdots & \ddots & \vdots \\[0.3em] \frac{\partial Y_{H, 1}}{\partial X_{i, j}} & \cdots & \frac{\partial Y_{H, J}}{\partial X_{i, j}} \end{pmatrix}$

因为 $\underset{[H \times J]}{Y} = \underset{[H \times I]}{w} \underset{[I \times J]}{X}$ ，所以 $Y_{h, n}$ 是 $w$ 的第 $h$ 行与 $X$ 的第 $n$ 列对应元素相乘的和，当 $j \neq n$ 时， $X_{i, j}$ 并不参与 $Y_{h, n}$ 的计算，对应的偏导数为 $0$ ，也就是说，这个矩阵只有第 $j$ 列的元素不为 $0$ 。

$\frac{\partial Y}{\partial X_{i, j}} = \begin{pmatrix} 0 & \cdots & \frac{\partial Y_{1, j}}{\partial X_{i, j}} & \cdots & 0\\[0.3em] \vdots & & \vdots & & \vdots \\[0.3em] 0 & \cdots & \frac{\partial Y_{H, j}}{\partial X_{i, j}} & \cdots & 0 \end{pmatrix}$

又因为

$Y_{h, j} = w_{h, 1}X_{1, j} + w_{h, 2}X_{2, j} + ... + w_{h, I}X_{I, j}$

所以

$\frac{\partial Y}{\partial X_{i, j}} = \begin{pmatrix} 0 & \cdots & w_{1, i} & \cdots & 0\\[0.3em] \vdots & & \vdots & & \vdots \\[0.3em] 0 & \cdots & w_{H, i} & \cdots & 0 \end{pmatrix}$

根据张量乘法的定义

$\begin{aligned} \frac{\partial L}{\partial X_{i, j}} &= \sum_{h}\sum_{j} \left( \frac{\partial L}{\partial Y} \right)_{h, j} \left( \frac{\partial Y}{\partial X_{i, j}} \right)_{h, j} \\ &= \sum_h \left( \frac{\partial L}{\partial Y} \right)_{h, j} \left( \frac{\partial Y}{\partial X_{i, j}} \right)_{h, j} \\ &= \sum_h \left( \frac{\partial L}{\partial Y} \right)_{h, j} w_{h, i} \end{aligned}$

自然

$\underset{[I \times J]}{\frac{\partial L}{\partial X}} = \underset{[I \times H]}{w^T} \underset{[H \times J]}{\frac{\partial L}{\partial Y}}$

同理

$\underset{[H \times I]}{\frac{\partial L}{\partial w}} = \underset{[H \times J]}{\frac{\partial L}{\partial Y}} \underset{[J \times I]}{X^T}$

Word2vec

在最简单的 Word2vec 模型中，我们计算每一个单词周围的一些单词出现的可能性，把所有这样的可能性乘起来得到整个句子的可能性。最大化这个可能性就是我们的目标。

假定词向量是维度为 $N$ 的列向量。词表中单词总数为 $V$ 。

$\begin{aligned} y_o &= p(o|c) = \frac{e^{u_o^T v_c}}{\sum_{w=1}^V e^{u_w^Tv_c}} \\ J &= CE(\hat{y}, y) = \sum_{i=1}^{V} y_i \operatorname{log}{\hat{y_i}} \end{aligned}$

为了更新词向量 $U$ 和 $v_c$ ，我们需要求出 $J$ 对他们的导数。先定义 $\underset{[V \times 1]}{\theta} = \underset{[V \times N]}{U^T} \underset{[N \times 1]}{v_c}$ ，那么我们已知， $\frac{\partial J}{\partial \theta} = \hat{y} - y$ 。直接应用上面的结果得到：

$\begin{aligned} \underset{[N \times 1]}{\frac{\partial J}{\partial v_c}} &= \underset{[N \times V]}{U} \underset{[V \times 1]}{(\hat{y} - y)} \\ \underset{[N \times V]}{\frac{\partial J}{\partial U}} &= \underset{[N \times 1]}{v_c} \underset{[1 \times V]}{(\hat{y} - y)^T} \end{aligned}$