生成AIについて

AIテクノロジーは、discriminativeモデルとgenerativeモデルに大きく分類される。生成AIは、後者のgenerativeモデルを意味しており言語生成AIだけではなく、画像生成AI、音楽生成AIなど多様な生成モデルが利用可能。

以下では、言語生成AIについてその仕組みの概要とその発展の経緯について記述します。

言語生成AI：「知識」獲得へ向けたステップアップ

2017年　Google　Transformerモデルを発表
2018年　OpenAIがGPT-1、GoogleがBERTを発表
両者は多くの共通点を持ち、インターネット上に存在する大量の文章を使って学習（教師なしpre-training）し、Q&A、文章要約、読解、翻訳などの各タスクごとに追加学習(教師ありfine tuning)を行う。
重要な点は、ほぼ無限に存在する多量の文章を利用して自己学習する（教師なし学習）ことで高度な知識獲得が可能であることを示したこと。
課題は、各タスクごとに追加学習(fine tuning)を行い個別にモデルを作成する必要があること。
2019年　OpenAIはGPT-2を発表
実験モデルでは大きな性能的進展はなしがこれ以降のGPT発展の流れを生み出したことが重要。
重要な点は、各タスクごとに必要であったfine tuningを行わずに、マルチタスク用の共通モデルを構築すべきであるという方向性を示したこと。多様性に富んだ極めて多量の文章をつかって事前学習させるだけで汎用モデルが生まれる可能性を示した。
2020年　OpenAIはGPT-3を発表
GPT-2で示したマルチタスクモデルを学習モデルを大規模化することで実現。単なるマルチタスクモデルにとどまらず、タスクを実行時に動的に認識するIn-context learning機能（メタ学習機能）は特筆すべきブレイクスルーとなった。生成されたモデルは単に文章生成能力を持つだけではなく（新たな）タスクを理解する能力を獲得していると考えられる。
タスク実行時には、「何を行って欲しいか」という文章（タスクの説明に相当）に加えて”Few-shots”と呼ぶ幾つかのサンプルをモデルに渡すことで、モデルはタスクを理解し最適解を探索する。サンプルを一切使わない”Zero-shot”が究極のゴールではあるが、初めてのタスクであっても数個のサンプルだけでそのタスクの目的（またはタスクのルール）を理解できることは驚きである。
重要な点は、各タスクごとの追加学習モデルを必要とせず、教師なしで事前学習しただけの（メタ学習）モデルと外部入力情報（プロンプト）のみで、モデル自身がタスク（目的）を判断し(In-context learning)、その目的に沿った最適解を生成すること。
課題は、Fine Tuningモデルに比べると性能が劣ること。また、適切なプロンプトを入力しなければ期待外れな結果になることがあること。適切なプロンプトはユーザー自身が文字として入力する必要がある。（→ よってプロンプトエンジニアリングなるノウハウが議論されることとなる。）
2021年〜　上述のプロンプトに関する制約を緩和するための試行が提案される。
GPT-3で必要なプロンプト入力の欠点は、プロンプトテキストを入力する手間だけでなくどのような適切なプロンプトを見つけ出すスキルが求められることである。
この課題に対して、「適切なプロンプトを自動生成する」方法が提案され、”Prefix-Tuning”、”Prompt Tuning”などが挙げられる。Prompt Tuningは、プロンプト入力の課題緩和だけでなくモデルとしての性能もアップしFine Tuningモデルに迫りつつある。
2022年11月　ChatGPTをOpenAIが公開（GPT-3.5ベース）
人による教師あり学習と強化学習を使ってfine tuning（タスク共通）を行い、多様なタスクに対応できる汎用モデルを実現し公開した。チャットにおいてユーザーが入力する情報とモデルの応答を含めてprompt情報として使用する。
重要な点は
　幅広い分野の質問に人が自然と感じる答えを直ちに生成することを可能とした。
　翻訳、要約、質問への回答だけでなく、音楽、小説、脚本、詩、作文など生成する対象が多岐にわたること。
　極めて大きなインパクトを経済社会に与えていること。
課題点は
　人が自然と感じる答の生成（Alignment)を重要視していることで、一見自然に見えるが事実とは異なる回答を生成することがある。
　社会に与えるインパクトにはマイナスのものもあるが議論が追いついていないこと。
2023年3月　GPT-4を公開
入力を文字だけでなく画像も可能とするマルチモーダル化に対応。
こちらを参照。