翻訳付きの日次キュレーションされたAI研究論文
我々は、数学に特化した大規模言語モデルLlemmaを発表します。Code LlamaをProof-Pile-2(科学論文、数学を含むウェブデータ、数学的コードの混合物)で継続事前学習し、Llemmaを開発しました。MATHベンチマークにおいて、Llemmaは既知の全てのオープンベースモデルを上回り、未公開のMinervaモデルスイートとも同等パラメータ数で比較して優れた性能を示します。さらに、Llemmaは追加のファインチューニングなしでツール使用や形式的定理証明が可能です。我々は、70億パラメータと340億パラメータのモデル、Proof-Pile-2、実験を再現するためのコードを含む全ての成果物を公開します。
大規模言語モデル(LM)は現在、文書の接頭辞が与えられた際にトークンを予測するように訓練されており、これにより長文生成や文書完成に還元可能なプロンプトスタイルのタスクを直接実行できる。既存の事前学習パイプラインでは、短い文書をランダムに連結して入力コンテキストを作成することでLMを訓練するが、前の文書は次の文書を予測するための信号を提供しない。代わりに、我々はIn-Context Pretrainingという新しいアプローチを提案する。これは、言語モデルを関連する文書のシーケンスで事前学習させることで、文書の境界を越えて読み解き推論することを明示的に促すものである。In-Context Pretrainingは、各コンテキストに関連する文書が含まれるように文書の順序を変更し、既存の事前学習パイプラインを直接適用することで実現できる。しかし、この文書ソート問題は困難である。数十億の文書があり、データを繰り返すことなく、すべての文書に対してコンテキストの類似性を最大化するソートを望んでいる。これを実現するために、効率的な最近傍探索を用いて関連文書を見つけ、グラフ探索アルゴリズムを用いて一貫性のある入力コンテキストを構築する近似アルゴリズムを導入する。我々の実験では、In-Context PretrainingがLMの性能を大幅に向上させるシンプルでスケーラブルなアプローチを提供することが示されている。具体的には、より複雑なコンテキスト推論を必要とするタスクにおいて顕著な改善が見られ、インコンテキスト学習(+8%)、読解力(+15%)、以前のコンテキストに対する忠実性(+16%)、長文推論(+5%)、検索拡張(+9%)などが向上した。
大規模言語モデルは、様々な言語関連アプリケーションの汎用インターフェースとしてその驚異的な能力を示してきました。これに着想を得て、我々は画像説明、視覚的質問応答、視覚的グラウンディングなど、多くの視覚言語タスクを完遂するための統一インターフェースの構築を目指しています。課題は、シンプルなマルチモーダル指示を用いて、多様な視覚言語タスクを効果的に実行する単一モデルを使用することです。この目的に向けて、我々はMiniGPT-v2を導入します。これは、様々な視覚言語タスクをより良く扱うための統一インターフェースとして扱えるモデルです。モデルの訓練時に、異なるタスクに対して一意の識別子を使用することを提案します。これらの識別子により、モデルは各タスク指示を容易に区別できるようになり、各タスクの学習効率も向上します。3段階の訓練後、実験結果はMiniGPT-v2が他の視覚言語汎用モデルと比較して、多くの視覚的質問応答および視覚的グラウンディングベンチマークで強力な性能を達成することを示しています。我々のモデルとコードはhttps://minigpt-v2.github.io/で公開されています。
インタラクティブなロボットフレームワークは、長期的なタスクプランニングを実現し、実行中であっても新しい目標や異なるタスクに容易に一般化することができます。しかし、従来の手法の多くは事前に定義されたモジュール設計を必要とするため、異なる目標に一般化することが困難です。最近の大規模言語モデルを基にしたアプローチでは、よりオープンエンドなプランニングが可能ですが、多くの場合、重いプロンプトエンジニアリングやドメイン固有の事前学習済みモデルを必要とします。この問題に対処するため、我々は言語モデルを用いたインタラクティブなタスクプランニングを実現するシンプルなフレームワークを提案します。我々のシステムは、高レベルのプランニングと低レベルの関数実行の両方を言語を通じて統合しています。本システムが、未見の目標に対する新しい高レベルの指示を生成する堅牢性と、複雑なプロンプトエンジニアリングを必要とせずにタスクガイドラインを置き換えるだけで異なるタスクに適応する容易さを検証しました。さらに、ユーザーが新しいリクエストを送信した場合、本システムは新しいリクエスト、タスクガイドライン、および以前に実行されたステップに基づいて正確に再プランニングを行うことができます。詳細は、https://wuphilipp.github.io/itp_site および https://youtu.be/TrKLuyv26_g をご覧ください。
大規模言語モデルは、多岐にわたる下流タスクにおいて有効性が証明されているものの、しばしば問題のあるテキストや望ましい属性を欠いたテキストを生成することがある。本論文では、Reward-Augmented Decoding(RAD)というテキスト生成手法を提案する。RADは、小さな単方向報酬モデルを用いて、言語モデルが特定の特性を持つテキストを生成するよう促す。具体的には、RADは生成されたテキストを報酬モデルで評価し、サンプリング確率を再スケーリングして高報酬のトークンを優先する。単方向報酬モデルを使用することで、RADは前の生成ステップからの活性化をキャッシュし、計算オーバーヘッドを削減することができる。非毒性テキストや感情制御テキストの生成に関する実験を通じて、RADが生成手順のみを変更する手法の中で最も優れた性能を発揮し、言語モデルの再学習を伴う最先端の手法と同等の性能を達成することを示す。さらに、RADが非常に大規模な言語モデルにおいても有効であり、最小限の計算オーバーヘッドで機能することを検証する。
私たちは、インターネット規模のデータで事前学習された大規模生成モデルの最近の進歩を活用し、生成されたビデオと言語の空間における複雑な長期タスクのための視覚的計画を実現することに興味を持っています。この目的のために、ビデオ言語計画(VLP)を提案します。VLPは、ツリー検索手順からなるアルゴリズムであり、(i)ポリシーと価値関数の両方として機能する視覚言語モデルを訓練し、(ii)ダイナミクスモデルとしてテキストからビデオへのモデルを訓練します。VLPは、長期タスクの指示と現在の画像観測を入力として受け取り、最終タスクを完了する方法を詳細に記述したマルチモーダル(ビデオと言語)仕様を提供する長いビデオ計画を出力します。VLPは計算予算の増加に伴ってスケールし、より多くの計算時間が改善されたビデオ計画をもたらし、異なるロボティクス領域にわたる長期ビデオ計画を合成することができます:多オブジェクトの再配置から、多カメラの両腕器用操作まで。生成されたビデオ計画は、生成されたビデオの各中間フレームに条件付けされた目標条件付きポリシーを介して、実際のロボットアクションに変換することができます。実験結果は、VLPがシミュレーションおよび実ロボット(3つのハードウェアプラットフォームにわたる)の両方において、従来の方法と比較して長期タスクの成功率を大幅に向上させることを示しています。
自己回帰型機械学習タスクにおけるデータ蒸留を研究する。ここでは、入力と出力が厳密な左から右への因果構造を持つ。具体的には、Farziを提案する。これは、イベントシーケンスデータセットを少数の合成シーケンス(Farzi Data)に要約し、完全なデータセットでの学習と比較してモデル性能を維持(あるいは向上)させるように最適化する。内部的には、Farziはメモリ効率の良いデータ蒸留を以下の方法で行う:(i) Hessian-Vector Productsを活用してAdamオプティマイザの効率的な逆モード微分を導出する、(ii) 高次元の離散イベント空間を潜在空間に分解し、暗黙の正則化を促進することを証明する。実験的に、逐次推薦と言語モデリングタスクにおいて、元のデータセットの0.1%という小さなサイズのFarzi Dataで最先端モデルを学習する場合、下流タスクの完全データ性能の98-120%を達成できる。特に、大幅に少ないデータでより良いモデルを学習できることは、将来の大規模自己回帰モデルの設計に光を当て、モデルとデータサイズをさらにスケールアップする新たな機会を開くものである。
狭いビット幅のデータフォーマットは、現代の深層学習アプリケーションの計算コストとストレージコストを削減する鍵となる。本論文では、ブロックごとのスケーリング係数と個々の要素に対する狭い浮動小数点型および整数型を組み合わせたMicroscaling(MX)データフォーマットを評価する。MXフォーマットは、ハードウェア効率、モデル精度、ユーザーフリクションという競合するニーズをバランスよく調整する。20以上のベンチマークでの実証結果は、MXデータフォーマットがベースラインのFP32を置き換える実用的な代替手段として、AI推論とトレーニングにおいて低いユーザーフリクションで使用できることを示している。また、生成言語モデルのトレーニングにおいて、8ビット未満の重み、活性化、勾配を用いても、精度の損失を最小限に抑え、トレーニングレシピを変更することなく実現できる初めての事例を示す。
多くの自然言語タスクで成功を収めているにもかかわらず、数学問題の解決は大規模言語モデル(LLMs)にとって依然として重要な課題です。LLMsの数学問題解決における「1回試行での正答率」と「N回試行での正答率」の間に大きな隔たりがあることから、LLMsが正しい解を見つける手前まで到達している可能性が示唆されており、このことがLLMsの性能を引き出すためのファインチューニング手法の探求を動機付けています。難易度の高いMATHデータセットを用いて、私たちは3つのファインチューニング戦略を調査しました:(1)解法ファインチューニング:与えられた数学問題に対する詳細な解法を生成するようにファインチューニングする、(2)解法クラスタの再ランキング:生成された候補解法クラスタの中から選択するための解法検証/評価モデルとしてLLMをファインチューニングする、(3)マルチタスク逐次ファインチューニング:解法生成と評価タスクを効率的に統合し、LLMの性能を向上させる。これらの手法を用いて、一連のPaLM 2モデルに関する徹底的な実証研究を行い、以下の知見を得ました:(1)ファインチューニングに使用するステップバイステップの解法の質とスタイルが、モデルの性能に大きな影響を与える、(2)解法の再ランキングと多数決投票は、それぞれ単独で使用した場合にモデルの性能向上に有効であるが、併用することでさらなる性能向上が可能である、(3)解法生成と評価タスクを逐次分離するマルチタスクファインチューニングは、解法ファインチューニングのベースラインと比較して改善された性能を提供できる。これらの洞察を基に、私たちはファインチューニングのレシピを設計し、ファインチューニングされたPaLM 2-LモデルでMATHデータセットにおいて約58.8%の正答率を達成しました。これは、多数決投票を用いた事前学習済みPaLM 2-Lモデルのfew-shot性能と比較して11.2%の精度向上です。
我々は、抽象的な記号を含む関係推論タスクにおけるトランスフォーマー大規模言語モデル(LLM)の能力を調査する。このようなタスクは、プログラミング、数学、言語推論におけるより複雑な能力の基本的な構成要素として、神経科学の文献で長年研究されてきた。(i)回帰タスクにおいて、トランスフォーマーは訓練時に一般化するが、驚くほど大量の訓練データを必要とすることを証明する。(ii)記号ラベルを用いた次トークン予測タスクにおいて、トランスフォーマーは埋め込み次元が増加するにつれて一般化に失敗するという「逆スケーリング則」を示す。設定(i)と(ii)の両方において、ヘッドごとに2つの学習可能なパラメータを追加することで、必要なデータ量を削減できる微妙なトランスフォーマーの修正を提案する。
帰納的ループ不変式の合成は、プログラム検証の自動化において基本的な課題である。本研究では、大規模言語モデル(gpt-3.5やgpt-4など)が0-shot設定で特定のクラスのプログラムに対するループ不変式を合成できるものの、正しい不変式を生成するためには複数のサンプルを必要とすることを観察した。これにより、不変式を確立するためにプログラム検証器への呼び出しが多数発生する可能性がある。この問題に対処するため、我々はLLMが生成した結果に対する{\it 再ランキング}手法を提案する。問題定義に基づいて、正しい帰納的不変式と誤った試行を区別できるランカーを設計した。このランカーは対照的ランカーとして最適化されている。実験結果は、この再ランキング機構が生成された候補の中から正しい不変式のランキングを大幅に改善し、検証器への呼び出し回数を著しく削減することを示している。