教師ありクラスタリング

概要

教師ありクラスタリング(クラスタ例からの学習)は,クラス分類とクラスタリングを組み合わせた学習タスクです. これは,文献004のアイデアを文献010で定式化したものです.

はじめに,クラスタリングと例からの学習について簡単に述べ,これらの違いを整理したうえで,教師ありクラスタリングについて説明したいと思います.

クラスタリング

「クラスタリング」の説明図

教師なしで,似ているものどうしをまとめる学習手法をクラスタリングといいます. 詳しい定義はいろいろとありますが,Everittは分類対象の集合が与えられたときに,内的結合(internal cohesion)と外的分離(external isolation)が達成されるようなクラスタと呼ぶ部分集合に,分類対象集合を分割することと定義しています.

分割の方法にも幾つかの種類がありますが,ここでは,全ての分類対象がどれか一つのクラスタの要素となるようにします.

クラスタリングの方法には,大きく次の二種類に分けられます. 一つは,分類対象の間の似ている度合いを数値化した“非類似度”が与えられたときに利用される方法で,最短距離法,最長距離法,群平均法などが代表的な方法です. もう一つは,分類対象の特徴が数値ベクトルで与えられているときに利用される方法で,k-means法などが代表的な方法です.クラスタリングについて詳しくお知りになりたい場合は次の解説をご覧下さい.

クラス分類

「例からの学習」の説明図

クラス分類問題とは,分類対象とそれが分類されるべきクラスの組である学習事例から未知の分類対象をクラスに分類する規則を獲得する学習タスクです. 数値分類の分野ではクラス分類や判別分析問題,機械学習分野では例からの学習,画像認識などの分野ではパターン認識問題とも呼ばれます.

QuinlanのID3,階層型ニューラルネットワークを利用する方法,線形判別分析による方法,サポートベクトルマシンなどの解法があります.

クラスタリングとクラス分類問題の違い

クラスタリングとクラス分類の違いを明らかにするために,クラスタとクラスの違いについてまとめます.

まず,クラスは,事前にその種類の数が決まっていて,それらを個々を区別できる必要があります.一方,クラスタは,個々を区別する必要はなく,個数も決める必要がない場合もあります.

例えば,クラスは A,B,C,D,E の5種類があると定めた場合,学習事例の中でこれ以外の F などのクラスに分類される事例があってはなりません. それに対して,クラスタは,ただ似ている分類対象を集めたものなので,A などのラベルを付けて区別できません.

教師ありクラスタリング

「クラスタ例から学習」の説明図

クラス分類では分類対象をクラスに分類する規則を獲得しますが,教師ありクラスタリングでは分類対象集合の真の分割を獲得するための規則を獲得する点が大きく異なります. そのため,学習事例集合は,分類対象とクラスの組ではなく,分類対象集合とその集合に対する真の分割の具体例の組になります.

クラスタリングによる分割と教師ありクラスタリングで獲得した規則による分割との違いは次の点にあります.

教師ありクラスタリングでは,学習事例の中で示された具体例に暗黙に示された規則性に従い,分類対象集合を分割します. 何らかの目的にそった分割を獲得したい場合に利用します.

クラスタリングでは,内的なまとまりや外的な分離といった曖昧な基準で分割されます. この基準は,「自然なクラスタ」という呼び方でよく表現されます. クラスタリングはこの自然に内在するまとまりを発見し,分類対象集合全体を概観するために利用されます.

まとめ

教師ありクラスタリングは,クラスタリングとクラス分類の二つの手法を組み合わせた手法です.

クラスタリングとは異なり,自然に内在する分割を見つけるのではなく,与えられた事例から,利用者の意図に沿った分割を見つけだす手法です.

=>教師ありクラスタリングはなぜ必要なのか?」へ続く