翻訳付きの日次キュレーションされたAI研究論文
QLoRAを紹介します。これは、65Bパラメータのモデルを単一の48GB GPUでファインチューニング可能なほどメモリ使用量を削減しつつ、16ビットファインチューニングのタスク性能を完全に維持する効率的なファインチューニング手法です。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルを通じて勾配を逆伝播し、Low Rank Adapters(LoRA)に伝えます。私たちがGuanacoと名付けた最良のモデルファミリーは、Vicunaベンチマークにおいてこれまでに公開されたすべてのモデルを上回り、ChatGPTの性能レベルの99.3%に到達し、単一GPUでの24時間のファインチューニングのみを必要とします。QLoRAは、性能を犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています:(a)正規分布する重みに対して情報理論的に最適な新しいデータ型である4ビットNormalFloat(NF4)、(b)量子化定数を量子化することで平均メモリフットプリントを削減するダブル量子化、および(c)メモリスパイクを管理するページドオプティマイザ。QLoRAを使用して1,000以上のモデルをファインチューニングし、8つの指示データセット、複数のモデルタイプ(LLaMA、T5)、および通常のファインチューニングでは実行が不可能なモデルスケール(例:33Bおよび65Bパラメータモデル)にわたる指示追従とチャットボット性能の詳細な分析を提供します。私たちの結果は、小さな高品質データセットでのQLoRAファインチューニングが、以前のSoTAよりも小さなモデルを使用しても最先端の結果をもたらすことを示しています。人間とGPT-4の評価に基づくチャットボット性能の詳細な分析を提供し、GPT-4評価が人間評価の安価で合理的な代替手段であることを示します。さらに、現在のチャットボットベンチマークはチャットボットの性能レベルを正確に評価するのに信頼できないことがわかりました。レモンピッキング分析により、GuanacoがChatGPTと比較して失敗する点を明らかにします。私たちは、4ビットトレーニング用のCUDAカーネルを含むすべてのモデルとコードを公開します。
命令データに対するファインチューニングは、ChatGPTのようなチャット言語モデルを実装するための効果的な手法として広く検証されてきた。そのようなデータの多様性と品質をスケールアップすることは、直接的ではあるが、性能向上につながる大きな可能性を秘めている。本論文は、オープンソースモデルの上限をさらに向上させることを目的としている。まず、人間のクエリを必要としない、体系的に設計された多様で有益な大規模な命令会話データセット、UltraChatを提供する。我々の目的は、人間がAIアシスタントと行う可能性のある相互作用の幅を捉え、多段階の会話を反復的に生成する包括的なフレームワークを採用することである。UltraChatは150万件の高品質な多段階ダイアログを含み、幅広いトピックと命令をカバーしている。UltraChatの統計分析により、スケール、平均長、多様性、一貫性などのさまざまな主要指標においてその優位性が明らかになり、主要なオープンソースデータセットとしての地位を確固たるものにしている。UltraChatを基盤として、LLaMAモデルをファインチューニングし、強力な会話モデルであるUltraLLaMAを作成した。我々の評価によると、UltraLLaMAは、以前に最先端のオープンソースモデルと認識されていたVicunaを含む他のオープンソースモデルを一貫して上回っている。データセットとモデルは公開される予定である\url{https://github.com/thunlp/UltraChat}。
我々は、LLaMAモデルをファインチューニングしたGoatを紹介する。このモデルは、様々な算術タスクにおいてGPT-4を大幅に上回る性能を発揮する。合成生成されたデータセットでファインチューニングされたGoatは、BIG-bench算術サブタスクにおいて最先端の性能を達成した。特に、ゼロショットのGoat-7Bは、Few-shotのPaLM-540Bが達成した精度に匹敵し、それを上回ることもある。驚くべきことに、Goatは大規模な数の加算と減算において、教師ありファインチューニングのみでほぼ完璧な精度を達成することができ、これはBloom、OPT、GPT-NeoXなどの従来の事前学習済み言語モデルではほぼ不可能であった。我々は、Goatの卓越した性能を、LLaMAの数値に対する一貫したトークン化に起因すると考えている。大規模な数の乗算や除算といったより困難なタスクに対処するために、我々はタスクをその学習可能性に基づいて分類し、その後、多桁の乗算や除算といった学習不可能なタスクを、基本的な算術原理を活用して一連の学習可能なタスクに分解するアプローチを提案する。我々は、提案した分解ステップの有効性を包括的に評価し、モデルの性能を徹底的に検証する。さらに、Goat-7Bは、24GBのVRAM GPU上でLoRAを使用して簡単にトレーニングすることができ、他の研究者による再現性を容易にする。我々は、モデル、データセット、およびデータセット生成用のPythonスクリプトを公開する。
実用アプリケーションにおいて言語モデルを使用する際の主要なリスクは、誤った記述を幻覚(hallucination)として生成する傾向にある。幻覚はしばしば言語モデルの知識不足に起因するとされるが、我々は、以前に生成した幻覚を正当化する際に、言語モデルが個別には誤りと認識できる虚偽の主張を出力する場合があると仮説を立てた。我々は、ChatGPTとGPT-4が誤った回答を述べ、少なくとも1つの誤った主張を含む説明を提供することが多い3つの質問応答データセットを構築した。重要なことに、ChatGPTとGPT-4はそれぞれ自身の誤りの67%と87%を識別できることがわかった。我々はこの現象を「幻覚の雪だるま効果(hallucination snowballing)」と呼ぶ:言語モデルが初期の誤りに過剰に固執することで、本来ならば起こらないはずのさらなる誤りを引き起こす現象である。
音声言語モデル(SpeechLMs)は、テキストの監督なしに音響データのみを処理および生成する。本研究では、事前学習されたテキスト言語モデルからのウォームスタートを用いてSpeechLMsを訓練する方法であるTWISTを提案する。自動評価および人間評価の両方を用いて、TWISTがコールドスタートのSpeechLMを全体的に上回ることを示す。音声トークナイザー、事前学習されたテキストモデル、データセットサイズなどの異なるモデル設計選択の効果を実証的に分析する。モデルとデータセットのスケールの両方が、より高性能なSpeechLMsを構築する上で重要な役割を果たすことを見出した。我々の観察に基づき、パラメータ数と訓練データの両方において、これまでで最大規模(我々の知る限り)のSpeechLMを提示する。さらに、モデル評価をさらに改善し、この分野の将来の研究を進めるために、StoryClozeテキストベンチマークの2つの音声版を導入する。音声サンプルは以下のウェブサイトで確認できる:https://pages.cs.huji.ac.il/adiyoss-lab/twist/。
Transformerの固定サイズのコンテキストにより、GPTモデルは任意の長さのテキストを生成することができません。本論文では、RNNの再帰メカニズムを言語ベースで模倣したRecurrentGPTを紹介します。RecurrentGPTは、ChatGPTのような大規模言語モデル(LLM)を基盤として構築され、自然言語を使用してLSTMの長短期記憶メカニズムをシミュレートします。各タイムステップにおいて、RecurrentGPTはテキストの段落を生成し、ハードドライブとプロンプトにそれぞれ保存された言語ベースの長短期記憶を更新します。この再帰メカニズムにより、RecurrentGPTは忘れることなく任意の長さのテキストを生成することが可能です。人間のユーザーが自然言語の記憶を容易に観察および編集できるため、RecurrentGPTは解釈可能であり、長文のインタラクティブな生成を可能にします。RecurrentGPTは、ローカルな編集提案を超えた次世代のコンピュータ支援ライティングシステムに向けた最初の一歩です。AI生成コンテンツ(AIGC)を生成するだけでなく、RecurrentGPTを消費者と直接対話するインタラクティブフィクションとして使用する可能性も示します。この生成モデルの使用法を「AI As Contents」(AIAC)と呼び、これは従来のAIGCの次の形態であると考えています。さらに、RecurrentGPTを使用して、作家ではなく読者と直接対話するパーソナライズされたインタラクティブフィクションを作成する可能性も示します。より広く、RecurrentGPTは、認知科学や深層学習の一般的なモデル設計からアイデアを借りてLLMをプロンプトする有用性を示しています。私たちのコードはhttps://github.com/aiwaves-cn/RecurrentGPTで利用可能であり、オンラインデモはhttps://www.aiwaves.org/recurrentgptで利用可能です。
大規模言語モデル(LLMs)の台頭により、ソフトウェア開発におけるこの技術の多様な応用が可能となった。特に、生成型LLMsは、コード作成中に文やコードブロック全体を提案できるAIベースのコード作成ツールを効果的に駆動することが示されている。本論文では、Meta社内で開発および展開されたAI支援型コード作成ツールであるCodeComposeを紹介する。CodeComposeは、生成能力と双方向性を統合したInCoder LLMに基づいている。我々はCodeComposeを拡張し、10以上のプログラミング言語と複数のコーディング環境において、Meta社内の数万人の開発者にサービスを提供している。 大規模な産業環境でこのようなツールを展開する際に生じるユーザーエクスペリエンスとメトリクスに関する独自の課題について議論する。これらの課題に対処するためのCodeComposeのモデルとシステムアーキテクチャに関する設計決定の経験を提示する。最後に、CodeComposeの大規模展開から得られたメトリクスを紹介し、15日間の期間においてMeta社内のコード作成エクスペリエンスに与えた影響を示す。この期間中、CodeComposeは450万件の提案を行った。定量的なメトリクスからは、(i) CodeComposeが複数の言語にわたって22%の受容率を達成していること、(ii) CodeComposeのユーザーがタイプしたコードの8%がCodeComposeからのコード提案を受け入れたものであることが明らかとなった。定性的なフィードバックでは、CodeComposeに対する91.5%の肯定的な評価が得られた。コード作成を支援するだけでなく、CodeComposeは、開発者がより多くのコード内ドキュメントを生成することを促したり、新しいAPIの発見を支援するなど、他のポジティブな副作用ももたらしている。
我々は、事前学習されたマルチモーダルモデル(例:Flamingo、BEiT-3、GPT-4)の知覚および推論能力を評価するための新しいマルチモーダルビデオベンチマーク「Perception Test」を提案する。既存のベンチマークが計算タスク(例:分類、検出、追跡)に焦点を当てているのに対し、Perception Testは、ビデオ、オーディオ、テキストのモダリティにわたるスキル(記憶、抽象化、物理学、意味論)および推論のタイプ(記述的、説明的、予測的、反事実的)に焦点を当て、包括的かつ効率的な評価ツールを提供する。このベンチマークは、ゼロショット/少数ショットまたは限定的なファインチューニング体制において、事前学習モデルの転移能力を探る。これらの目的のために、Perception Testは、世界中の約100名の参加者によって撮影された、知覚的に興味深い状況を示すように設計された平均23秒の11.6kの実世界のビデオを導入する。これらのビデオは、6種類のラベル(多肢選択式および接地されたビデオ質問応答、オブジェクトおよびポイントトラック、時間的行動および音声セグメント)で密に注釈付けされており、言語および非言語の評価を可能にする。ベンチマークのファインチューニングおよび検証用の分割は、CC-BYライセンスで公開されており、保持されたテスト分割を伴うチャレンジサーバーも利用可能である。最先端のビデオQAモデルと比較した人間のベースライン結果は、性能に大きなギャップがあることを示しており(91.4%対43.6%)、マルチモーダルビデオ理解にはまだ大きな改善の余地があることを示唆している。データセット、ベースラインコード、およびチャレンジサーバーはhttps://github.com/deepmind/perception_testで利用可能である。
大規模言語モデル(LLM)を人間の価値観に適合させることは、LLMを高度に制御することを可能にするため、ますます重要になっている。例えば、与えられた指示に従わせながら、有害性を低く保つことなどが挙げられる。しかし、これには大量の人間によるデモンストレーションとフィードバックが必要となる。最近では、オープンソースのモデルが、InstructGPTやChatGPTのような既に適合済みのLLMからデータを蒸留することで、適合学習プロセスを再現しようと試みている。このプロセスは人間の労力を削減するが、これらのデータセットの構築は教師モデルに大きく依存している。本研究では、人間の労力をほとんど必要とせず、事前に適合済みのLLMに依存しない新しい適合学習フレームワークを提案する。まず、さまざまなサイズとプロンプトを持つバニラLLMからの応答を対比させることで、合成フィードバックを用いた報酬モデリング(RM)を行う。次に、このRMを用いて高品質なデモンストレーションをシミュレートし、教師ありポリシーのトレーニングと、強化学習によるモデルのさらなる最適化を行う。その結果得られたモデル、Aligned Language Model with Synthetic Training dataset(ALMoST)は、InstructGPTの出力や人間による注釈付き指示に基づいてトレーニングされたAlpaca、Dolly、OpenAssistantなどのオープンソースモデルを上回る性能を示す。我々の7Bサイズのモデルは、GPT-4を評価者としたA/Bテストにおいて、12-13Bモデルを平均約75%の勝率で上回った。
人間は、自ら目標を想像し、それを実践することで、開かれた技能のレパートリーを習得する。この自己目的的な学習プロセス、すなわち自己生成された(auto)目標(telos)の追求は、目標が多様化し、抽象的かつ創造的になるにつれて、ますます開かれたものとなる。その結果として可能な技能の空間を探索する行為は、個人間の探索によって支えられている。すなわち、目標の表現は文化的に進化し、特に言語を用いて個人間で伝達される。現在の人工エージェントは、主に事前に定義された目標表現に依存しており、その目標空間は限定されたもの(例:指示のリスト)か、または無制限のもの(例:可能な視覚入力の空間)であるが、目標表現を再構築したり、新しい抽象化を形成したり、創造的な目標を想像する能力を備えていることは稀である。本論文では、事前学習済みの言語モデル(LM)を活用して、多様で抽象的かつ人間に関連する目標の表現、生成、学習を支援する言語モデル拡張自己目的的エージェント(LMA3)を紹介する。LMは、人間の文化的伝達の不完全なモデルとして使用され、人間の常識、直感的な物理学、および全体的な興味の側面を捉える試みである。具体的には、LMA3は自己目的的アーキテクチャの3つの主要なコンポーネントを支援する:1)エージェントの軌跡で達成された目標を記述するリラベラー、2)エージェントが既に習得しているサブゴールに分解された新しい高レベルの目標を提案する目標ジェネレーター、および3)これらの各目標に対する報酬関数である。手動でコーディングされた目標表現、報酬関数、またはカリキュラムに依存することなく、LMA3エージェントがタスクに依存しないテキストベースの環境で多様な技能を習得することを示す。
本論文では、大規模言語モデル(LLMs)の推論能力について徹底的な調査を行い、特にOpen Pretrained Transformers(OPT)モデルを代表例として焦点を当てています。本研究では、慎重に選別された推論コーパスを用いて3つの異なるサイズのOPTモデルをファインチューニングし、説明なしでファインチューニングしたOPT-Rと、説明付きでファインチューニングしたOPT-REの2つのモデルセットを作成しました。その後、SUPER-NATURALINSTRUCTIONSベンチマークから抽出した57のドメイン外タスクにおいて、26の異なる推論スキルをカバーし、3つのプロンプト手法を用いて全てのモデルを評価しました。27の設定と6,156のテスト評価を通じて、ファインチューニング、プロンプト、スケールの次元を調査し、異なる推論スキルにおける説明の役割を理解しました。我々の調査結果は、ファインチューニングされたモデルにおいては、few-shotの例に説明を含めてもモデルの性能に有意な影響を与えない一方で、ファインチューニングされていないモデルでは正の影響を与えることを明らかにしました。さらに、プロンプトとファインチューニングのそれぞれにおいて説明を取り入れることで、分類精度がわずかながらも一貫して向上することを観察しました。最後に、ファインチューニングとプロンプトの際に説明を取り入れることで最も恩恵を受けるスキル(例えば、数値推論(+20.4%)や類推推論(+13.9%))や、ほとんど効果がないか逆に悪影響を及ぼすスキルについての洞察を提供します。
データの不足は、多言語NLPシステムの開発において重要な課題です。しかし、多くの低リソース言語(ULs)——NLP研究がユーザーのニーズを満たすことが特に遅れている言語——においては、少量のデータにアノテーションを付けることが可能です。これに動機づけられ、私たちはXTREME-UPを提案します。このベンチマークは、ゼロショットではなくデータ不足のシナリオに焦点を当て、高リソース言語の話者によって広く採用されているユーザー中心のタスクに焦点を当て、そしてこのデータ不足のシナリオが最も現実的である低リソース言語に焦点を当てています。XTREME-UPは、88の低リソース言語にわたる9つの主要なユーザー中心技術(ASR、OCR、MT、および一般的な有用性を持つ情報アクセスタスクを含む)における言語モデルの能力を評価します。私たちは、OCR、オートコンプリート、意味解析、および翻字のための新しいデータセットを作成し、他のタスクの既存のデータセットを基に改良を加えます。XTREME-UPは、テキストのみ、マルチモーダル(視覚、音声、テキスト)、教師ありパラメータチューニング、およびインコンテキスト学習を含む多くのモデリングシナリオを評価するための方法論を提供します。私たちは、このベンチマークで一般的に使用されるモデルを評価します。すべてのコードとモデルのトレーニングおよび評価のためのスクリプトを公開します。