音声は「あ」,「い」のような,ことばの細かい切れ端(音素)の連なりによって
成り立っています。音声認識は,音声の中に現れる音素を正しく識別・分類する技術です。
音素の識別・分類は,大量のデータを用いて,予め学習された,音声の音素ごとのひな形
(モデル)に基づいて行われます。このモデルをどのように学習するか,という問題は音声
認識において極めて重要です。
当研究室ではモデル学習に関して,主に,以下に挙げるテーマに取り組んでいます。
(1) モデル学習における識別的学習基準/目的関数の高度化
モデルの学習は,大量のデータを用いて,モデルを最適化すること,具体的にはモデルの
「良さ」を図る学習基準を定めこれが最大(あるいは最小)になるような,モデルのパラ
メータを定めることで実現されます。学習基準はパラメータの関数の形をしており,「目的
関数」とも呼ばれます。この内「識別的目的関数」はモデルの識別能力を直接最大化する
ように設計された学習基準です。
これまでに多くの識別的目的関数が個別に提案されてきましたが,それらの関係性を明らかに
したり,より一般化した視点で捉えることはなされてきませんでした。本研究では,種々の
識別的目的関数の関係を明らかにした上で,数理的な一般化を図り,これに基づいて新たな
目的関数の設計を目指します。
(2) 識別的学習基準による事後分布の推定
モデルが確率に基づくとき,モデルの構築は,確率分布の推定問題に帰着し,このとき
モデルのパラメータとは分布パラメータとほぼ同義になります。データに基づいて,分布
パラメータに確定的に数値を与える推定(点推定)においては学習に用いるデータ(学習
データ)の量が反映されず、推定結果の信頼性を考慮する術はありません。従来、識別的
学習は、この点推定に基づいていたため、学習データへの過度な適合を十分に抑止する
ことができず、未知の標本に対しては安定して十分な能力を発揮できませんでした。
そこで,モデルのパラメータを確率変数と考え、その分布(事後分布)を学習データに
基づいて推定するベイズ推定の考え方を取り入れ,事後分布を識別的基準で推定することで
学習データ量に応じ、最良結果をもたらすモデルを獲得する枠組みの確立を目指します。
(3) パターン認識におけるクラス境界評価基準の構築
モデル学習において,学習によって推定されるクラス境界と理想的な最小分類誤り確率
(ベイズリスク)状態に対応する境界(以降,ベイズ境界)との一致度を評価するための
新しい基準の確立を目指します。
本研究は「ベイズ境界を構成するクラスどうしの標本は境界上のいずれの点においても
等確率で存在する」という条件に着目するという点で,情報量基準や正則化,幾何マージン
などを用いる従来研究とは明確に異なる手法と言えます。
この新しい基準は,従来手法と独立にも相補的にも利用し得るものと考えられ,近年の
サポートベクターマシンや深層学習においても全く未解決の,長年横たわる「有限量学習
データに対する過学習」の問題が大幅に改善され,優れたベイズ境界の推定が実現される
ことが期待されます。