梯度下降推导
以感知器为例,可以梯度下降来学习合适的权重和偏置: 假设有n个样本,第i次的实际输出为y,对于样本的预测输出可以表示为: $$ \bar{y}^i = w_1x_1^i+w_2x_2^i+…+w_nx_n^i+b $$ 任意一个样本的实际输出和预测输出单个样本的误差,可以使用MES表示: $$ e^i=\frac{1}{2}(y^i-\bar{y}^i)^{2} $$ 那么所有误差的和可以表示为: $$ \begin{aligned} E &= e^1+e^2+…+e^n \ &= \sum_{i=1}^ne^i \ &= \frac{1}{2}\sum_{i=1}^n(y^i-w^Tx^i)^2 \end{aligned} $$ 想象一下,当你从山顶往下……