ハイアラーキカルクラスタリング(階層的クラスター分析)説明

目的と説明

ハイアラーキカルクラスタリングは、データ間の距離をもとに「距離が近い=類似性が高い」としてデータをクラスター化させる分析手法である。適用分野を問わないことや、再帰的な計算の途中で止めてもそれまでの結果を使うことが可能であること、さらに結果を見ながら、クラスタの数をしきい値によって決めることができるので、大変便利である。
また、計算結果を元にデンドログラム・樹形図を書くことができ、結果の可視化手段・確認方法としても優れている。

計算方法

ハイアラーキカルクラスタリングの計算は、次の3ステップから成る。
(1) 最初の距離計算
 まず最初にデータ間の距離を計算する。この計算には、ユークリッド距離、平方ユークリッド距離、マンハッタン距離などが使われる。
(2) 距離評価(最短の距離を探索)
 次に、上で求めた距離がもっとも近いデータ(ペア)を探し出す。
(3) 距離更新(次の探索のための距離更新)
 そして、該当するペアデータをまとめ1つのクラスタデータとして更新する。この計算にはウォード法、群平均法、重心法、最長距離法などが使われる。
距離を更新した後は再び(2)の評価を行う。このように計算していくと、データ数(ベクトル数)をnとした場合、n-1回繰り返すことで全てのデータが1つのクラスターに属し、これが計算の終了となる。

計算ページ

ハイアラーキカルクラスタリングを行う


Copyright © 2015 GxyPRO All Rights Reserved. / www.gxypro.com