机器学习的本质
- 自动寻找一个函数的能力
 
类别
- Regression: The function outputs a scalar
- 寻找一个具体数值
 
 - Classification: Given options(class),thr function outputs the correct one
- 从选项中进行选择
 
 - Structured Learning: create somrthing with struction
- 让机器创造具有结构性的输出
 
 
研究步骤(Linear Model)
假设Model(猜测关系)
- Based on Domain Knowledge
 - Model ( weight/bias ): a function
 
定义Loss(确定Model好不好用)
- Loss: a function, how good a set of value is
 - Label: 正确的数值
 - Feature: 一个特征,一个可能影响结果的数值
 - MAE(mean absolute error): |y-y^|
 - MSE(mean square error): (y-y^)^2
 
最佳化问题(Optimization)
- Gradient Descent: 一种常用的optimization的方法,计算最佳w,b
 - Hyperparameters: 机器学习中需要自己设定的值
 - Global minima: LossFunction真正的最低点
 - Local minima: 微分值为0但并非最低点
 - Error Surface: 将Loss函数绘制为权重
 
优化第一步:预测模型优化
- 突破Model Bias
 
- Linear Model有很大限制(Model Bias)
 - Piecewise Linear Curves = constant + sum of a set of (blue curve)
- 曲线也可以转化为piecewise linear

 
 - 曲线也可以转化为piecewise linear
 
- 寻找Blue Function
 
Sigmoid Function (S型Function)

Hard Sigmoid

w/b/c: Change slopes/shift/height
最终的方程(针对piecewise linear function)

计算展开(更加直观辣)

用矩阵表示结果

最终结果

$\theta$: 将所有未知变量放在一个列向量中
优化第二部步:根据新模型更改Loss
- Gradient: 所有变量微分值所组成的列向量
- 写作 g=▽L ( $\theta$ $^0$ )
 
 - Update: 每一次更新参数
 - Epoch: See all the batches once
- 一个epoch通常包含多次update
 
 
优化第三步:反复多做几次
以a为参数再进行修正
神经网络(Neural)
每一次反复都是一层layer

Overfitting:过拟合