参考自周志华《机器学习》的附录A
向量 →a 对标量 x 的导数以及 x 对 →a 的导数都是向量。其第 i 个分量为:
(∂→a∂x)i=∂ai∂x(∂x∂→a)i=∂x∂ai类似的,矩阵 A 对标量 x 的导数以及 x 对 A 的导数都是矩阵,第 i 行第 j 列的元素为:
(∂A∂x)i,j=∂Ai,j∂x(∂x∂A)i,j=∂x∂Ai,j对于函数 f(→x) ,假设其对向量元素可导,则 f(→x) 关于 →x 的一阶导数是一个向量,其第 i 个分量为
(∇f(→x))i=∂f(→x)∂xif(→x) 关于 →x 的二阶导数是一个矩阵,被称为海森矩阵(Hessian matrix),其第 i 行第 j 列上的元素为
(∇2f(→x))i,j=∂2f(→x)∂xi∂xj向量和矩阵的导数满足乘法法则:
∂→xT→a∂→x=∂→aT→x∂→x=→a∂AB∂→x=∂A∂→xB+A∂B∂→x由 AA−1=I 知:
∂AA−1∂→x=OA∂A−1∂→x+∂A∂→xA−1=OA∂A−1∂→x=−∂A∂→xA−1∂A−1∂→x=−A−1∂A∂→xA−1所以逆矩阵的导数可以表示为
∂A−1∂→x=−A−1∂A∂→xA−1若求导的标量是矩阵 A 的元素,则有
∂tr(AB)∂Ai,j=Bj,i∂tr(AB)∂A=BT∂tr(ATB)∂A=B∂tr(A)∂A=I∂tr(ABAT)∂A=A(B+BT)