分类目录归档:大数据

线性代数回头看——线性方程组

1、线性方程组概述

线性方程组:包含未知数x1,x2,x3….xn的线性方程

enter image description here

  其中b与系数a1,a2,a3…an是实数或复数,通常是已知的;下标n可以为任意数;线程方程组为由一个或几个包含相同变量x1,x2,x3….xn的线性方程组组成;
线性方程组的解分为相容、与不相容两种情况;
  相容: 1、唯一解;2、无穷解
  不相容: 无解

线性方程组矩阵表示
  可以使用矩阵来表示线性方程组:
  系数矩阵:只包含方程组系数的矩阵
  增广矩阵:在系数矩阵的基础上加上线性方程组右边的常数组成的矩阵

2、解线性方程组

  通过使用矩阵表示线性方程组,对矩阵使用行初等变换,把矩阵行化简为:行阶梯形矩阵或简化行阶梯形矩阵;

初等行变换:
  1、倍加变换——把某行换成它本身与另一行的倍数和
  2、对换变换——两行对换
  3、倍乘变换——某一行的所有元素乘以同一个非零数
行阶梯形矩阵:
  1、每一非零行在每一零行之上
  2、某一行的最左边非零元素所在列在上面一行非零元素的右边
  3、某一最左边非零元素所在列下方都是零
  简化阶梯形为在行阶梯形矩阵的基础上进一步简化:
  1、每一非零行最左边非零元素为1
  2、每一最左边非零元素1是该元素所在列的唯一非零元素
同一个矩阵使用不同的方法化简,存在不同的行阶梯形,但简化阶梯形只存在一个;

行阶梯形相关概念:

  主元位置:最左边非零元素位置
  主元列:主元所在列
  主元:主元位置的非零元素

  线性方程组行简化后不一定每个方程组都存在解,若存在解则称该线性方程组相容,线性方程组相容,当且仅当:化简后的增广矩阵最右列不是主元列;
  根据行简化得到行阶梯形矩阵或简化行阶梯形矩阵,我们可以把线性方程组中的变量称为:基本变量、自由变量;

  基本变量:主元列所在的变量
  自由变量:非主元列的变量

3、线性组合

  A为m*n矩阵,矩阵各列为:a1、a2、a3…、an,x为Rn中的向量,则A与x的乘积为Ax,为A的各列以x对应元素为权的线性组合;

enter image description here

线性方程Ax=b,有解当且仅当b为矩阵A各列的线性组合;

齐次线性方程组:

若线性方程组可以写成Ax=0的形式,则该线性方程组为齐次的;

  平凡解:若Ax=0仅有x=0一个解,也称为平凡解
  非平凡解:若Ax=0存在一个非x=0的解,即x为非零向量

Ax=0有非平凡解,当且仅当线性方程至少存在一个自由变量

4、线性无关

线性无关:矩阵的各列线性无关,仅当Ax=0仅存在平凡解时成立
线性相关: Ax=0存在非平凡解

一个或两个向量集合:
  存在其中一个向量是另一个向量的倍数时线性相关,否则线性无关;
两个或更多向量集合:
  1、向量集合中至少有一个向量是其他的线性组合
  2、向量组的个数超过每个向量元素的个数
  A为n*p矩阵,Ax=0方程有p个未知量,n个方程,若p>n,必定存在自由变量,Ax=0必存在非平凡解,所以A的各列线性相关;
  3、向量组包含零向量
满足这三个条件则线性相关;

参考资料:
线性代数及应用

线性回归——最大似然法

似然函数

  似然函数与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下推测出该事件发生时的条件(参数);所以似然估计也称为参数估计,为参数估计中的一种算法; 下面先求抛硬币的似然函数,然后再使用似然函数算出线性回归的参数;
  假如有一枚硬币我们现在不知道它是否为正常硬币(正反面出现概率各位50%),所以想通过抛10次然后通过硬币正反面出现的概率分布判断该硬币是否正常;当抛完10次时出现5次正面向上、5次反面向上,正反面出现的概率符合正常硬币的预期,这时我们可以判断该硬币是正常的;

  抛硬币符合二项分布所以下面计算出概率分布情况:
  enter image description here

  如图:
    enter image description here

    上图中x轴为正面出现的次数,y轴为上述函数的结果

  上面式子中w为正反面出现的比例,y为正面出现的次数;

使用最大似然法求硬币问题

  似然函数为知道了结果求条件,概率问题为知道了条件求概率,在这个问题中就是知道了硬币是正常的,求正反面出现的比例w为何值时该结果最靠谱;所以似然函数等于:

    enter image description here

  函数左边的值并非条件概率中的条件而是该函数的依赖值,似然函数L为在给定结果y的情况下参数w的取值情况,概率函数L为知道了参数w求得y的取值;有了抛硬币情况的概率分布这里就可以给出似然函数

  enter image description here

  似然函数求的是在给定样本向量y的情况下,符合该概率分布的参数向量w取值可能性;该似然函数求的是在w取何值时y=5的可能性更高;就问题而言就是求w取何值时enter image description here的最大值,就如之前梯度下降法一样,求该函数的偏导数就可以求得极大值; 由于直接求偏导数比较复杂,通常情况下都会求对数似然函数,对数函数为单调递增的所以与似然函数具有同样的最大值,该对数似然函数为:

  enter image description here

  下面对该似然对数进行求关于w的偏导数:

  enter image description here

  要求其最大值就是求该导数的拐点,也就是令函数等于0;

  enter image description here

  通过求L关于w的偏导数求得w=0.5,于我们上面概率中的w时一致的,也就是说当w=0.5时y正面出现的次数等于5的可能性是最高的;

线性回归

  通过前面几篇文章我们知道了线性回归的模型为:

  enter image description here

  enter image description here为误差值,所以我们也可以变为:

  enter image description here

  enter image description here代表的是误差,我们知道模型与实际的结果值时一个连续随机变量,也就是说损失函数(loss function)的值时连续随机变量,也就是,模型不可能考虑到所有的特征那也可能就过拟合了所以就会存在噪音,一般来说多种噪音叠加会呈现出正态分布的所以这里假设是正态分布的,训练模型的数据集中肯定不止一条记录,但结果只有一个,所以可以假设每条记录误差都是独立同分布的;

  所以线性回归的概率密度函数为:

  enter image description here

  则似然函数为:

  enter image description here

  上面假设过每条记录误差都是独立同分布的,所以数据集的联合密度为:
  enter image description here
  按照惯例直接求解似然函数比较麻烦所以求解对数似然函数:

  enter image description here
  enter image description here
  enter image description here
  enter image description here

  然后求L关于w的偏导数,令其等于0求拐点enter image description here
  enter image description here

  把式子转为向量形式:
  有:
  所以
  enter image description here

  到这一步我们已经求得到了enter image description here,这与前面我们通过最小二乘法求得的矩阵方程一样,所以w也一定是我们这里求得的w正确解;

  使用最大似然法求解问题的步骤为:
    一、确定问题的随机变量类型是离散随机变量还是连续随机变量
    二、得出问题的概率分布
    三、概率函数转为似然函数
    四、似然函数取对数
    五、求关于某变量的偏导数
    六、解似然方程

参考资料:
http://zh.wikipedia.org/zh-hans/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
a first course in machine learning