介绍

Softmax 函数将一组数字组成的向量 $K$ 转换成 $K$ 的概率分布。它用于解决多分布问题。

Argmax 是将向量 $K$ 转成 1 或 0 常量组成的向量。Argmax 的问题是没法利用结果来优化参数 $W$ 和 $b$ ，即无法应用反向传播。

\begin{align*} \mathcal{{\scriptsize 用于求预测值时：} } \\ {\color{Orange} \mathbf{\hat{y}} = softmax(\mathbf{o}) } \\ {\color{Green} \hat{y}_i = \frac{exp(o_i)}{\sum_{j=1}^{K}exp(o_j)} } \\\\\mathcal{{\scriptsize 写成函数形式:} } \\ {\color{Violet} \sigma (o)_i = \frac{e^{o_i} }{\sum_{j=1}^{K}e^{o_j} } } \end{align*}

Softmax 转成的概率分布组成的向量，sum 的结果为 1。

举例

现在有一个对 Iris 进行预测的模型，输入一条数据，经过多层网络后得到：

Setosa 1.43
Versicolor -0.4
Viginica 0.21

此时就可以用激活函数 Softmax，把数据转为 0-1 范围内的概率。

\begin{align*} t = e^{1.43} + e^{-0.4} + e^{0.21} \\ \hat{y}_{setosa} = \frac{e^{1.43}}{t} = 0.69 \\ \hat{y}_{versicolor} = \frac{e^{-0.4}}{t} = 0.10 \\ \hat{y}_{viginica} = \frac{e^{0.21}}{t} = 0.21 \end{align*}

指数函数除了能把值映射到 0-1 范围，还有个优势是它的导数很好计算。

对于第 i 项数据，Softmax 函数的导数是：

\frac{\partial y_i}{\partial x_j} = \begin{Bmatrix} y_i (1-y_i) \quad if \space i=j \\ -y_iy_j \qquad if \space i\ne j \end{Bmatrix}

计算过程略。