前回ゼミ(2012/11/07)にて,GETAを利用した階層化クラスタリングについて発表した.
群平均法やWARD法などを紹介,実装サンプルを見せた.
それに対する質問として,「WAM上の各エントリの類似度計算には,何類似度が用いられているのか」という質問を受けた.
libcsライブラリのcsb関数を用いただけなので,内部の演算までは確認できていなかった.
少し確認してみた所(この確認が曖昧で正しさを保証できない)WARD法はeuclidで計算,群平均と最短長距離法ではコサイン類似度が使われているようである.(デフォルトのまま変更してない)
本当にコサイン類似度を使用しているのかな・・・?