LLMにおけるデータのもつ課題

執筆中

参考

3. 「日本語に特化した言語モデル」が直面する言語固有の課題
なぜ英語圏や中国語圏の汎用的な大規模言語モデルと比較して、日本語に特化した汎用的な大規模言語モデルが小規模に留まっているのでしょうか。これには、日本語固有の課題や難しさがあります。 最初の課題として、これまで言語モデルで日本語を使用する際、コーパス(と呼ばれる自然言語の文章を構造化して大規模に集め、品詞等の言語的な情報を付与したもの)が少なかったり、例えあったとしても、テキスト内にノイズがたくさん存在しているため、使用する際に上手く除去しなければいけませんでした。

また、インターネット上のテキストはウィキペディアのコピーが多く、教師データとして適切なものが少ないということもあります。共通語である英語であればデータ量もさることながら、研究者同士のつながりで質の良いデータが共有されることに対し、日本語はこれと比較して、データ量・研究者間のデータ共有数ともに量は多くありません。

さらに日本語独自の難しさとして、以下が挙げられます。

日本語は語順の自由度が高いことや、日常における必須語が多い。
さまざまな表記や同じ音で異なる語が存在する。
方言の多様性で同じ意味の単語でも日本全国で異なる単語の組み合わせになる。
日本語の話者はひらがな・カタカナ・漢字・ローマ字など、さまざまな文字を使って1つの文章を作り、同じ単語を複数回表記する場合には書き方を変える。
日本語の話し言葉は文中の主語や目的語を省略しがちなので、テキストを読む際には、その文中の単語の省略を考慮しながら意味を解釈していく必要がある。
日本語に特化した汎用的な大規模言語モデルが作られれば、これらの問題を解消することができ、さらに日本語の会話や文章を正確に推定することができるようになります。

NTTデータ

参考2

大規模言語モデルをだます Hindsight Neglect タスクとは