前号: No 408 / 次号: No 410 / 一覧(note.com)へ / ブログページに戻る

メールマガジン「がんばりすぎないセキュリティ」No409 (25/06/02)

今更聞けない生成AIのキホン(409号)


前回、前々回と生成AIの話を書きました。

ですが、この二回に対して「トレーニング不足とは何のことか?」「生成AIの推論とは何なのか?」といった質問をいただきました。

確かに、前回と前々回ではそのあたりを前提とした書き方になっていましたので、今回は生成AIのキホンとして、その仕組みについてお話をします。


1. 生成AIは知識のカタマリ

なんとなくそう思う方が多いでしょうが、生成AIは知識のカタマリを有しています。 ただし、この知識のカタマリというのは、巨大な図書館の書架のように整然と図書が並んでいる状況とはかなり違います。 書架方式では現在の生成AIのような高速応答が全く達成できないからです。 というのは、質問の都度、書架にある全書籍をを総ざらえするのはあまりに非効率で、速度が出せません。 例えば、質問してから回答までに何時間もかかるようでは使い物になりませんよね。 そのため、生成AIではいわばアンチョコを内部に持っています。 このアンチョコのことを「トレーニング済みモデル(モデルパラメータ)」などと呼ぶのですが、この実態は巨大な単語帳とでも呼ぶべきものです。 この単語帳には、単語の意味は書かれておらず(属性などは持っています)その代わり、つながりの強い単語が山のように並んでいます。さらに各単語のつながりの強さは数値化されています。 生成AIはこのトレーニング済みモデルを用いて回答を生成しています。 生成AIはトレーニング済モデルがなければ、なにひとつ回答できないのです。 では、このトレーニング済みモデルはどうやって作るのでしょうか?

2. トレーニング済みモデルは開発元が作る

このトレーニング(学習)という作業こそが生成AIの質をの決め手となるキモなのです。 「学習」という表現ははカナ漢字変換での単語の優先順位などの時にも使われますよね。 カナ漢字変換の学習では、コンピュータに利用者の利用頻度を覚えさせますが、生成AIでいう「学習」は、利用者が行う作業ではありません。 それは生成AIサービスを提供する開発者が行うものです。 (厳密にはいろいろありますが、基本的は開発者が行う作業です) このトレーニングという作業とは、インターネット上の膨大な情報を「巨大な単語帳」に転記する作業になります。 トレーニングデータの中に同じ論旨の記述が多いほどより強くつながっていると考えます。 その結果、一般的な知識はよりつながりが深いものとして、トレーニング済みモデル(単語帳)に取り込まれ、少数意見はそれよりも関係性の浅いデータとしてトレーニングされることになります。 このトレーニングというフェーズによって、単語間のつながり(出現頻度)を保持していることを理解していると、いくつかの事実に納得がいくと思います。 まず、前回書いた「生成AIはウソをつく」という原因の多くが、このトレーニングフェーズにある点です。 トレーニングデータが偏っていれば、世間では少数意見のはずのものを「間違いのない事実」と主張しますし、トレーニングデータが少なければ、その回答も不安定(時と場合によって答えが変わる)になるわけです。 少し前に話題になった中国製のDeepSeekという生成AIが天安門事件についてまともな回答ができないという話が出ていますが、これなどはトレーニングに投入されているデータの偏りが主因の可能性が高いと思われます。 結局のところ、生成AIが絶対に正しいなんていうのは幻想でしかありません。 なぜなら、「完全に公平なトレーニングデータ」など、神ならぬ人の身で決められるはずがないからです。 生成AIに渡すデータは必ず偏りが生じます。よって、生成AIの回答にも必ず偏りは生ずるのです。

3. 生成AIの回答は「推論」による

トレーニング済みモデルが完成すると、それを使って生成AIが回答を作れるようになります。これを「推論」と呼びます。 この「推論」という言葉はAI用語でして、一般に使う「推論」とは少し意味がズレています。 では、AI用語として推論とは何か?と言いますと、こちらの質問に使われた単語とつながりの深い単語を「巨大な単語帳」から抽出して回答を作り上げることを言います。 つまり、生成AIの回答は完全に統計的な数学手法で作られており、いわゆる「考えて」いるわけではありません。 例えば、「今日の晩御飯は何がいいと思う?」という質問を生成AIにしたとします。 すると、生成AIの内部では、これを単語に分割し、その単語と親和性の高い単語を検索します。 そのトレーニングデータに「今日の晩御飯はカレーにしよう」というデータが大量にあり他が少なければ、トレーニング済みモデルには「晩御飯」と「カレー」という単語が強いつながりを持った状態となります。 こういったつながりの強い単語を次々と拾っていき、最終的にそれを文章として表示します。 結果「今日の晩御飯はカレーがいいんじゃないでしょうか」という回答が出てくるわけです。 つまり、生成AIは思考ではなく、トレーニングデータの中から質問とのつながりが最も高い単語を連鎖的に調べて回答の体裁を整えているにすぎません。 この回答を探す過程のことを「推論」と呼ぶのです。

4. 最新情報は検索して補う

このように、生成AIでは事前に「トレーニング(学習)」を行った上で、質問された内容を「推論」という方式を使って回答に仕立てます。 ところが、この方式にはかなり致命的な問題があります。 「トレーニング」に膨大なコストがかかるのです。 「トレーニング」を行うにはトレーニングデータを整えた上で、実際にトレーニングをさせなければなりません。ところがこれにはとてつもない時間と労力が必要になります。 このトレーニングはもちろん、単一のコンピュータで行えるような量ではなく、多数のコンピュータを並行稼働しないと全く追いつきません。 例えば、最新のコンピュータであっても1台だけで計算させようとするとおそらく数十年の時間が必要です。これを仮に1,000台で計算したとしても、数百時間(数十日)の期間が必要で、コスト的にもン百億円を要します。 さらに、トレーニング後に人手による調整作業を施さないと、精度が悪くて使い物にならないとも言われます。要するにすごく手間がかかるわけです。 ですので、生成AIの提供元にとってトレーニング済みモデルはそう簡単に更新できません。 でも、ここで問題が出てきます。トレーニング済みモデルは時間が経つにつれ陳腐化してきます。つまり、古い情報をあたかも最新であるかのように回答する率が高くなっていきます。 これを回避するため、最近の生成AIでは、補助的に検索を行うことで最新情報を補い、精度の高い回答を行うような工夫が取られています。

5. まとめ(今回お話ししたこと)

今回は、生成AIの基本的な構造としてのトレーニング(学習)と推論についてお話しました。 また、回答の精度を上げるために、最新情報をWeb検索して補なっていることについてもお話しました。 ただ、いずれにしても生成AIを作っているのはヒトです。 生成AIに与えるトレーニングデータをチョイスするのもヒトなら、どのようなポリシーでサービスを運営するかを決めるのもヒトです。 生成AIを過度に信頼しないように改めてご注意ください。 なお、生成AIの話というのは、今もっともホットなトピックです。 多数の研究や開発が行われていて、恐ろしいほどのスピードで開発が進んでいます。 この記事は2025年6月に書いていますが、2025年の年末には陳腐化している部分もでてくることでしょう。 ぜひ、皆さんも知識の更新を行ってください。 せっかくですから、生成AIをうまく使って更新したいものですね。 次回もお楽しみに。 今回お話ししたこと:  ・トレーニングは開発会社が行う。利用者は関係ない。   →トレーニングデータには必ず偏りがある。  ・生成AIは全く「思考」していない。   →あくまで統計的に深いつながりのある言葉をチョイスしているだけ。  ・最新情報はWebで補っている。   →トレーニング済みモデルの再作成には膨大なコストがかかる。 (本稿は 2025年6月に作成しました)

前号: No 408 / 次号: No 410 / 一覧(note.com)へ / ブログページに戻る