AI Basic Notes
向量空间的一组基:
张成 (span) 该空间的一个线性无关 (linearly independent) 向量集.
线性变换是指一个向量空间到另一个向量空间的映射,
满足加法和数乘运算的线性性质:
L(αv+βw)=αL(v)+βL(w)
Matrix representation:
vAvA2A1=xi+yj=[xy]=xi^+yj^=x[ac]i+y[bd]j=[acbd][xy]=A2i^+A2j^=([a2c2b2d2][a1c1])i+([a2c2b2d2][b1d1])j=(a1[a2c2]+c1[b2d2])i+(b1[a2c2]+d1[b2d2])j=[a2a1+b2c1c2a1+d2c1a2b1+b2d1c2b1+d2d1]
左乘矩阵相当于对列向量进行线性变换,
右乘矩阵相当于对行向量进行线性变换.
Am×n 表示 n 维空间到 m 维空间的线性变换:
- n 列: 输入空间有 n 个基向量, 即为 n 维空间.
- m 行: 输出空间每个基向量对应 m 个坐标, 即为 m 维空间.
- A1×n 表示 n 维空间到一维空间的线性变换:
向量点乘 (Dot Product) v⋅w 可以理解为
w 通过 V1×n 变换到一维空间后的投影.
Dot Product and Cross Product
- Dot Product: v⋅w=∥v∥∥w∥cosθ.
- Cross Product: ∥v×w∥=∥v∥∥w∥sinθ.
- v⋅(v×w)=0,
w⋅(v×w)=0.
Basis changes, translating transformations:
vp=P−1APwp
det(A) 表示矩阵 A 的行列式,
表示该变换对空间的缩放 因子:
det(A)=0 时, 表示该变换将空间压缩到一个低维空间,
称矩阵 A 为奇异矩阵 (Singular Matrix):
- 矩阵 A 列向量线性 相关.
- 矩阵 A 不满秩 (Not full rank).
- 矩阵 A 不可逆.
Determinant for 2d matrix:
acbd=ad−bc
Determinant for 3d matrix:
adgbehcfi=aehfi−bdgfi+cdgeh
Determinant for matrix multiplication:
det(A1A2)=det(A1)det(A2)
高斯消元法求解线性方程组 (Linear System Of Equations):
首先第一行的第一个元素化为 1,
下面每行减去第一行乘以该行第一个元素的倍数,
从而把第一列除第一行外的全部元素都化为 0,
进而把第二列除前两个元素之外的元素都化为 0,
最后把矩阵化为上三角矩阵.
类似地, 从最后一行开始, 逐行把上三角矩阵化为单位矩阵.
AxA−1Axx=v=A−1v=A−1v
A=[acbd]
eigenvalue Av=λv quick calculation:
λ=m±m2−p=2λ1+λ2±(2λ1+λ2)2−λ1λ2=2a+d±(2a+d)2−(ad−bc)
洛必达法则是求解分数形式的未定型极限 limx→a00 的有效方法之一:
x→alimg(x)f(x)=x→alimdg(x)df(x)=x→alimdxdg(a)dxdxdf(a)dx=x→alimdxdg(a)dxdf(a)=x→alimg′(a)f′(a)
常见导数:
dxdxndxdsinxdxdcosxdxdaxdxdexdxdlogaxdxdlnxdxd(g(x)+h(x))dxd(g(x)h(x))dxdf(g(x))dxdf−1(x)dxd∫a(x)b(x)f(t)dt=nxn−1=cosx=−sinx=axlna=ex=xlna1=x1=g′(x)+h′(x)=g′(x)h(x)+g(x)h′(x)=f′(g(x))g′(x)=f′(f−1(x))1=f(b(x))b′(x)−f(a(x))a′(x)
泰勒级数利用函数在某点的各阶导数, 近似该点附近函数的值:
1−x1exln(1+x)sin(x)cos(x)f(x)=n=0∑∞xn∣x∣<1=n=0∑∞n!xn=n=1∑∞n(−1)n−1xnx∈(−1,1]=n=0∑∞(2n+1)!(−1)nx2n+1=n=0∑∞(2n)!(−1)nx2n=n=0∑∞n!f(n)(x0)(x−x0)n=f(x0)+f′(x0)(x−x0)+2!f′′(x0)(x−x0)2+…
复数平面 (Complex Plane) 上的圆周运动:
eix=cosx+isinx
Time to frequency transform:
f^(ξ)=∫−∞∞f(t)e−2πiξtdt
Discrete Fourier Transform (DFT):
X[k]=n=0∑N−1xne−Ni2πkn
outcomes
111⋮11en2πien2πi(2)⋮en2πi(n−1)1en2πi(2)en2πi(4)⋮en2πi(2)(n−1)………⋱…1en2πi(n−1)en2πi(2)(n−1)⋮en2πi(n−1)(n−1)
微分方程 (Differential Equation) 是描述变量之间关系的方程,
通常包含未知函数及其导数, 用于描述物理现象和自然规律.
一阶微分方程:
dtd[x(t)y(t)]=[acbd][x(t)y(t)]⇒[x(t)y(t)]=e[acbd]t[x(0)y(0)]
ifv(t)thendtdv(t)=eMtv0=dtdeMtv0=dtdn=0∑∞n!Mntnv0=n=0∑∞n!Mnntn−1v0=Mn=0∑∞(n−1)!Mn−1tn−1v0=MeMtv0=Mv(t)
x¨(t)=−μx˙(t)−ωx(t)
Gravitational force equation:
y¨(t)=−g,dtdx1=v1,y˙(t)=−gt+v0dtdv1=Gm2(∥x2−x1∥x2−x1)(∥x2−x1∥21)θ¨(t)=−μθ˙(t)−Lgsin(θ(t))
热传导方程:
∂t∂T(x,t)=α∂x2∂2T(x,t)
Black-Scholes / Merton equation:
∂t∂V+rS∂S∂V+21σ2S2∂S2∂2V−rV=0
相空间是描述系统状态的空间,
每个点代表系统的一个状态, 点的轨迹描述了系统的演化.
import numpy as np
g = 9.8
L = 2
mu = 0.1
THETA_0 = np.pi / 3
THETA_DOT_0 = 0
def get_theta_double_dot(theta, theta_dot):
return -mu * theta_dot - (g / L) * np.sin(theta)
def theta(t):
theta = THETA_0
theta_dot = THETA_DOT_0
delta_t = 0.01
for _ in np.arange(0, t, delta_t):
theta_double_dot = get_theta_double_dot(theta, theta_dot)
theta += theta_dot * delta_t
theta_dot += theta_double_dot * delta_t
return theta
若随机变量 X 服从一个位置参数为 μ, 尺度参数为 σ 的概率分布,
且其概率密度函数 (Probability Density Function, PDF) 为:
f(x)=σ2π1e−21(σx−μ)2
则这个随机变量称为正态随机变量, 正态随机变量服从的分布称为正态分布,
记作 X∼N(μ,σ2), 读作 X 服从 N(μ,σ2) (正态分布).
其中 μ 为均值 (数学期望 Mean), σ 为标准差 (Standard Deviation).
正态分布 (又称 Gaussian Distribution) 是一种连续概率分布.
当 μ 为 0, σ 为 1 时, 称为标准正态分布 (Standard Normal Distribution).
在自然界与生产中, 一些现象受到许多相互独立的随机因素的影响,
如果每个因素所产生的影响都很微小时, 总影响 (Sum) 可以看作服从正态分布.
相互独立的正态分布, 其和也是正态分布.
总体正态分布的均值等于各个分布的均值之和,
E(X1+⋯+Xn)=E(X1)+⋯+E(Xn)=nμ.
假设协方差为 0, 则总体正态分布的方差等于各个分布的方差之和,
Var(X1+⋯+Xn)=Var(X1)+⋯+Var(Xn)=nσ2,
可以得到总体正态分布的标准差为 nσ.
设随机变量 X1,X2,…,Xn 独立同分布(Independent Identically Distribution),
且均值为 E(Xi)=μ, 方差为 D(Xi)=σ2,
对于任意 x, 其分布函数为
Fn(x)=P{nσ∑i=1nXi−nμ≤x}
满 足
n→∞limFn(x)=n→∞limP{nσ∑i=1nXi−nμ≤x}=2π1∫−∞xe−2t2dt=∅(x)
独立同分布的中心极限定理说明, 当 n 足够大时,
随机变量 Xn=i=1∑nXi
近似服从正态分布 N(nμ,nσ2);
标准化后的随机变量 Yn=nσ∑i=1nXi−nμ
近似服从标准正态分布 N(0,1).
更一般化的中心极限定理,
可参见林德伯格中心极限定理 (Lindeberg CLT)
etc.
∫−∞∞e−x2dx=π
高维空间求解高斯积分:
对于正态分布, 系数 π1 使得概率密度函数的积分为 1,
即 ∫−∞∞f(x)dx=1, 使其成为有意义的概率分布.
重复 n 次独立的伯努利试验, X∼B(n,p), 期望值 E(X)=np, 方差 D(X)=np(1−p):
P(X=k)=Cnkpk(1−p)n−k
Bayes theorem:
P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)⇒
P(A∣B)=P(B)P(B∣A)P(A)=P(B∣A)P(A)+P(B∣¬A)P(¬A)P(B∣A)P(A)
其中, P(B∣¬A)P(B∣A) 称为贝叶斯系数 (Bayes Factor):
O(A∣B)=P(¬A∣B)P(A∣B)=P(¬A∣B)P(B)P(A∣B)P(B)=P(B∣¬A)P(¬A)P(B∣A)P(A)=O(A)P(B∣¬A)P(B∣A)
信息熵
是对信息量的度量 (E[I]),
概率小的事件发生所带来的信息量大, 概率大的事件发生所带来的信息量小,
即概率小, 出现机会小, 不确定性大, 信息熵大, 信息量大:
H(X)=E[−log2P(xi)]=−i=1∑nP(xi)log2P(xi)
Output a scalar:
- Linear regression:
y=Wx+b=i=1∑nwixi+b,
L=i=1∑n(yi−y^