Home of a Explorer


  • 首页

  • 分类

  • 标签

  • 归档

  • 关于

  • 搜索

主成分分析

发表于 2018-01-31 | 分类于 机器学习

为了缓解高维情形下出现的数据样本稀疏、距离计算困难等问题,一个重要途径是降维。主成分分析(PCA)是应用最为广泛的一种降维技术。本文将介绍主成分分析的基本原理及算法实现。

阅读全文 »

奇异值分解

发表于 2018-01-30 | 分类于 机器学习

奇异值分解在机器学习领域应用广泛,结合MLiA一书中的例子,本文介绍它在图像压缩和推荐系统中的应用。

阅读全文 »

K-均值

发表于 2018-01-29 | 分类于 机器学习

K-均值算法是无监督学习中的经典算法,该方法的基本思想是“物以类聚”,将相似的样本归到同一个簇中。算法分两步实现,第一步对样本点分配簇标记,第二部更新簇中心坐标。该算法受初始值的影响较大,容易陷入局部极值,一种做法是不断对簇进行二分,直到满足用户设定的最大簇数目为止。本文除了介绍K-均值算法的基本原理及算法外,也详细讲解MLiA一书中的程序实现。

阅读全文 »

树回归

发表于 2018-01-28 | 分类于 机器学习

本文主要介绍两种树形结构用于求解回归问题:一种是回归树,叶节点用均值,误差用总方差衡量;另一种是模型树,叶节点为线性回归模型,误差用线性回归误差衡量。对样本集进行二分后,计算二分后误差有没有改善,如果没有,则停止二分;如果有改善,则继续进行二分。但是,如果节点过多,模型可能对数据过拟合,此时可以采用树剪枝处理,包括预剪枝和后剪枝。最后介绍MLiA一书中使用tkinter编写GUI交互调试树回归参数。

阅读全文 »

AdaBoost算法

发表于 2018-01-26 | 分类于 机器学习

AdaBoost算法是一种串行化的集成学习算法。其工作机制是:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个学习期,如此反复进行,直到基学习器数目达到实现制定的个数\(T\),最终将这\(T\)个基学习器进行加权结合,得到最终的预测结果。本文首先介绍AdaBoost算法的工作原理,然后介绍MLiA一书中该算法的实现以及该算法在马疝病的应用,最后介绍针对不平衡问题学习器的一些评估指标,包括查准率、查全率、AUC、代价敏感错误率、\(F1\)、\(PR\)曲线、\(ROC\)曲线、代价曲线等,以及对样本集的改造方法。

阅读全文 »

支持向量机

发表于 2018-01-25 | 分类于 机器学习

支持向量机(SVM)是机器学习的主流技术之一。很多学者认为它是监督学习最好的定式算法。它的基本思想是在正确分类的前提下,尽可能将不同类分开。为了突破线性不可分的限制,SVM采用核函数技巧,将数据从原特征空间映射到高维特征空间,使得不同类数据变得可分。SVM方法具有十分严格的数学理论基础,且在实际应用中泛化能力强,因此是监督学习领域中最受欢迎的方法之一。

阅读全文 »

Python基本语法汇总

发表于 2018-01-22 | 分类于 Python

本文主要介绍Python语言的一些容易出错和比较特别的语法,以备不时之需。

阅读全文 »

Python特殊函数

发表于 2018-01-22 | 分类于 Python

本文主要介绍Python语言的一些特殊函数、属性、迭代器、生成器,属于Python语言的高级用法,也是真正体现Python语言特点的内容,十分精彩!

阅读全文 »

贝叶斯分类器

发表于 2018-01-22 | 分类于 机器学习

贝叶斯决策论是在概率框架下实施决策的一种基本方法。对分类问题而言,朴素贝叶斯理论在大数定律和属性条件独立性假设的基础上,根据先验概率和类条件概率计算后验概率,从而得到新样本属于某一类的概率。

阅读全文 »

决策树

发表于 2018-01-22 | 分类于 机器学习

决策树是一种非常常用的数据挖掘算法。以分类问题为例,它根据一系列子问题形成树结构进行决策,这也是人类在面临决策问题时一种很自然的处理机制,因此是也是知识图谱的重要算法之一。该算法采用的是分而治之(divide-and-conquer)的思想。本文主要介绍决策树中的ID3算法。

阅读全文 »
1…456
Seisinv

Seisinv

51 日志
6 分类
125 标签
© 2018 Seisinv
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.3