您好、欢迎来到现金彩票网!
当前位置:双彩网 > 相似性测度 >

第五章聚类分析汇总

发布时间:2019-06-04 03:02 来源:未知 编辑:admin

  模式识别 第五章 聚类分析 中国矿业大学信电学院 蔡利梅 第五章 聚类分析 z 基本概念 z 模式相似性测度 z 聚类准则 z 聚类算法 z 聚类有效性分析 基本概念 z 聚类分析 根据模式的特征空间分布,按点间相似程度进 行归类的方法。 z 事先不需要将各类抽样组成训练集,直接按照 相似性分析模式,所以,聚类方法又称为无监 督法。 z 相似性的度量一般采用距离函数来表示。 z z 聚类中心 z 每类模式的聚集中心或具有代表性的模式,也 称为标准模式。 第五章 聚类分析 基本概念 z 最小距离分类器 L,ωm, 设有m个类别: ω1,ω2, L,zm, 其聚类中心分别为: z1,z2, 任一样本 x与第 i类聚类中心间的距离表 示为: d i = x ? zi = ( x ? zi ) ( x ? zi ) T i =1 2, , L,m 若?j ≠ i,有d i d j,则x ∈ ωi 有时也用最小距离的平方作为分类判别函数 第五章 聚类分析 模式相似性测度 z 衡量样本之间的相似性 z 常用的模式相似性测度 z 明氏(Minkowski)距离 z 马氏(Mahalanobis)距离 z 向量夹角余弦 z Tanimoto测度 第五章 聚类分析 明氏距离 m? ? D(xi , x j ) = ?∑ (xik ? x jk ) ? ? k =1 ? d d 1m xi , x j 均为d维模式向量 m = 1 : D1 (xi , x j ) = ∑ xik ? x jk 城市距离 k =1 2? ? m = 2 : D2 (xi , x j ) = ?∑ (xik ? x jk ) ? ? k =1 ? m →∝: 切比雪夫距离 d 12 欧氏距离 模式相似性测度 马氏(Mahalanobis)距离 D 2 = ( x ? m ) Σ ?1 ( x ? m ) T m : 均值向量 Σ:协方差矩阵 模式相似性测度 向量夹角余弦 S (xi , x j ) = xiT x j xi xj 反映了几何相似性,在模式 向量具有扇形分布时常采用 S ( x1 , x2 ) = cosθ1 S ( x1 , x3 ) = cosθ 2 x1 x2 x3 θ1 θ2 此时,余弦值越 大,相似性越大 模式相似性测度 Tanimoto测度 x y S ( xy ) = T x x + y T y ? xT y T 模式向量各分量取0、1 二值时,常采用此式。 模式相似性测度 聚类准则 z 衡量样本集划分结果 z 常用的聚类准则 z 误差平方和准则 z 与最小方差有关的准则 z 散布准则 z 基于模式与类核间距离的准则函数 第五章 聚类分析 误差平方和准则 J e = ∑ ∑ x ? mi i =1 x∈ωi C 2 C:类别数, mi:ωi 类的均值 z Je最小时,认为聚类合理 z 适用于类内样本密集,类间分离明显的分 布情况 z 潜在的问题:不同聚类所包含的样本个数 相差很大时,将一个大的类别分割开反而 可能具有更小的误差平方和。 聚类准则 误差平方和准则 Je大 Je小 与最小方差有关的准则 J = ∑ N i Si i =1 C 1 Si = 2 N x∈ ∑ ∑ ω i x?x 2 x ∈ω i N i:ωi 类中的样本数; Si:相似性算子 ,ωi 类中所有点间距离平方 的均值 Si也可以是其他形式。 J最小时,认为聚类合理。 聚类准则 散布准则 z 通过定义一些散布矩阵引出一些准则函数,反映 同类样本的聚集程度以及不同类之间的分离程度 1 ωi 类的均值向量为: mi = Ni 1 m= N x ∑ ω i x∈ 所有类别总体分布的均 值向量为: ∑ N m ,N = ∑ N i =1 i i i =1 C C i ωi 类的散布矩阵为: S i = x∈ (x ? m )(x ? m ) ∑ ω i i i T 类内总的散布矩阵为: Sω = ∑ S i i =1 C 聚类准则 散布准则 类间散布矩阵为: S B = ∑ N i (mi ? m )(mi ? m ) i =1 C C T 总体散布矩阵为: ST = ∑ (mi ? m )(mi ? m ) i =1 T 总体散布矩阵与样本集的具体划分无关,取决于全 体样本。类内散布矩阵和类间散布矩阵由划分决定 两个量之间存在一种互补关系:若类间离散度增 大,则类内离散度就会减少。所以,在最小化类内 离散度时,类间离散度同时最大化。 聚类准则 基于迹的准则 散布矩阵的迹是矩阵对角线上元素的和,是 一种标量度量,正比于数据在各个坐标轴方 向上的方差的和,所以,定义Sω的迹为准则 c C 函数: 2 J = trSω = ∑ trSi = ∑ ∑ x ? mi i =1 i =1 x∈ω i Q tr [ST ] = tr [Sω ] + tr [S B ] : 与具体的划分方式无关 ∴ 最小化类内准则 J = tr [Sω ]的同时,也最大化 了类间准则 J = trS B = ∑ N i mi ? m i =1 C 2 聚类准则 行列式准则 z 行列式度量了散布矩阵体积的平方, 正比于数据在各个主轴方向上的方差 之积。 z 当类内散布矩阵Sω非奇异时,得到准 则函数: c J = Sω = ∑S i =1 i 聚类算法 z 简单搜索算法 z 最大的最小距离算法 z 动态聚类法 z K均值算法 z ISODATA算法 z 系统聚类法(分级聚类法) 第四章 聚类分析 简单的搜索算法 z 原理 z 任意选择一个样本xi作为第一个聚类中 心z1,并确定一个非负阈值T; z 计算样本xj到xi的距离d,若dT,则把 xj归入第一类,否则,确定新的聚类

http://niatsholat.com/xiangsixingcedu/72.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有