翻訳付きの日次キュレーションされたAI研究論文
最近、LLaMA、Falcon、Mistralなどのオープンソースの大規模言語モデル(LLM)が急増し、AI実践者や研究者にとって多様な選択肢が提供されています。しかし、ほとんどのLLMは最終的なモデルの重みや推論コードなどの部分的な成果物しか公開されておらず、技術レポートも高レベルの設計選択や表面的な統計に範囲を限定する傾向が強まっています。これらの選択は、LLMのトレーニングに関する透明性を低下させ、チームがトレーニングプロセスの多くの詳細を再発見することを強いることで、この分野の進歩を妨げています。私たちは、LLM360というイニシアチブを紹介します。これは、LLMを完全にオープンソース化することを提唱し、すべてのトレーニングコードとデータ、モデルのチェックポイント、中間結果をコミュニティに提供することを目指しています。LLM360の目標は、エンドツーエンドのLLMトレーニングプロセスを透明かつ誰もが再現可能にすることで、オープンで協力的なAI研究を支援することです。LLM360の第一歩として、7BパラメータのLLMであるAmberとCrystalCoderをゼロから事前学習したものを公開します。これには、トレーニングコード、データ、中間チェックポイント、分析が含まれます(https://www.llm360.ai)。私たちは、このオープンソースの取り組みを通じて、LLMの境界を継続的に押し広げることにコミットしています。より大規模で強力なモデルが進行中であり、今後もリリースされる予定です。
人間が生成したデータを用いた言語モデル(LM)のファインチューニングは、依然として広く行われている手法です。しかし、そのようなモデルの性能は、高品質な人間データの量と多様性によって制限されることが多いです。本論文では、スカラー値のフィードバックが得られるタスク(例えば、正誤を検証可能な数学問題)において、人間データを超えることができるかどうかを探ります。そのために、期待値最大化法に基づくシンプルな自己学習手法であるReST^{EM}を提案し、調査を行います。この手法では、(1) モデルからサンプルを生成し、バイナリフィードバックを用いてフィルタリング、(2) これらのサンプルでモデルをファインチューニング、(3) このプロセスを数回繰り返します。PaLM-2モデルを用いて、高度なMATH推論およびAPPSコーディングのベンチマークでテストを行った結果、ReST^{EM}はモデルサイズに対して良好にスケールし、人間データのみでのファインチューニングを大幅に上回る性能を示しました。全体として、フィードバックを用いた自己学習は、人間生成データへの依存を大幅に軽減できる可能性が示唆されています。
W.A.L.Tを紹介します。これは拡散モデリングを用いたフォトリアルなビデオ生成のためのTransformerベースのアプローチです。我々のアプローチには2つの重要な設計上の決定があります。まず、画像とビデオを統一された潜在空間内で共同で圧縮する因果的エンコーダを使用し、モダリティを超えた学習と生成を可能にします。次に、メモリと学習効率のために、空間的および時空間的生成モデリングに特化したウィンドウアテンションアーキテクチャを採用しています。これらの設計上の決定を組み合わせることで、分類器フリーガイダンスを使用せずに、確立されたビデオ(UCF-101およびKinetics-600)および画像(ImageNet)生成ベンチマークで最先端の性能を達成することができます。最後に、テキストからビデオ生成のタスクのために、基本の潜在ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなる3つのモデルのカスケードを訓練し、8フレーム/秒で512×896解像度のビデオを生成します。
近年、テキストプロンプトからの3Dコンテンツ生成は、2Dおよび3D拡散モデルを活用することで顕著な進歩を遂げています。3D拡散モデルは優れたマルチビュー一貫性を保証しますが、高品質で多様な3Dアセットを生成する能力は、限られた3Dデータによって制約されています。一方、2D拡散モデルは、3Dデータを一切必要とせずに優れた汎化性と豊富な詳細を実現する蒸留アプローチを見出しています。しかし、2Dリフティング手法は本質的なビュー非依存の曖昧さに悩まされており、これにより深刻な多面ジャヌス問題が発生し、テキストプロンプトが一貫した3D結果を学習するための十分なガイダンスを提供できません。コストのかかるビューポイント認識モデルを再トレーニングする代わりに、我々は容易にアクセス可能な粗い3D知識を活用してプロンプトを強化し、2Dリフティング最適化をガイドして洗練する方法を研究します。本論文では、高忠実度、汎化性、および幾何学的整合性を同時に実現する新しいテキストto3DフレームワークであるSherpa3Dを提案します。具体的には、3D拡散モデルによって生成された粗い3D事前知識から導出された2つのガイダンス戦略を設計します:幾何学的忠実度のための構造的ガイダンスと、3D一貫性のための意味的ガイダンスです。これら2種類のガイダンスを採用することで、2D拡散モデルは多様で高品質な結果を伴う3Dコンテンツを豊かにします。広範な実験により、我々のSherpa3Dが品質と3D整合性の点で最先端のテキストto3D手法を凌駕することを示します。
現代の大規模視覚言語モデル(LVLM)は、ほとんどの一般的な視覚タスクをカバーできるCLIPという共通の視覚語彙を享受しています。しかし、文書レベルのOCRやチャート理解など、密で細かい視覚知覚を必要とする特殊な視覚タスク、特に非英語のシナリオでは、CLIPスタイルの語彙は視覚知識のトークン化において効率が低く、語彙外の問題に直面する可能性があります。これに対応して、我々はVaryを提案します。Varyは、LVLMの視覚語彙を拡張するための効率的かつ効果的な方法です。Varyの手順は自然に2つの段階に分かれます:新しい視覚語彙の生成と統合です。最初の段階では、語彙ネットワークと小さなデコーダのみのトランスフォーマーを設計し、自己回帰を通じて目的の語彙を生成します。次に、新しい語彙を元の語彙(CLIP)と統合することで、バニラ視覚語彙を拡張し、LVLMが迅速に新しい特徴を獲得できるようにします。人気のあるBLIP-2、MiniGPT4、LLaVAと比較して、Varyはそのバニラ能力を維持しながら、より優れた細かい知覚と理解能力を享受できます。具体的には、Varyは新しい文書解析機能(OCRやマークダウン変換)に適しており、DocVQAでは78.2%のANLS、MMVetでは36.2%を達成します。我々のコードはホームページで公開されます。
大規模言語モデル(LLM)は、わずかな例だけで新しいタスクを解決する驚異的な能力を持っていますが、適切なツールへのアクセスが必要です。Retrieval Augmented Generation(RAG)は、与えられたタスクに対して関連するツールのリストを取得することでこの問題に対処します。しかし、RAGのツール取得ステップでは、必要な情報がすべて明示的にクエリに含まれている必要があります。これは、広く採用されているツール取得方法であるセマンティック検索が、クエリが不完全であるか文脈を欠いている場合に失敗する可能性があるため、制限となります。この制限に対処するため、我々はRAGのためのコンテキストチューニングを提案します。これは、スマートなコンテキスト取得システムを使用して、ツール取得とプラン生成の両方を改善する関連情報を取得するものです。我々の軽量なコンテキスト取得モデルは、数値的、カテゴリカル、および習慣的な使用シグナルを使用してコンテキスト項目を取得し、ランク付けします。我々の実証結果は、コンテキストチューニングがセマンティック検索を大幅に向上させ、コンテキスト取得タスクとツール取得タスクのそれぞれでRecall@Kを3.5倍および1.5倍改善し、LLMベースのプランナーの精度を11.6%向上させることを示しています。さらに、我々の提案する軽量モデルが、LambdaMARTとReciprocal Rank Fusion(RRF)を使用することで、GPT-4ベースの取得を上回ることを示します。さらに、ツール取得後でもプラン生成時のコンテキスト拡張が、幻覚を減少させることを観察しました。
我々は、大規模言語モデル(LLM)、特にGPT-4を用いて自発的な動作を生成可能なヒューマノイドロボット「Alter3」の開発を報告する。この成果は、GPT-4を我々の独自開発アンドロイド「Alter3」に統合し、LLMをAlterの身体動作に効果的に結び付けることで実現された。通常、低レベルのロボット制御はハードウェアに依存し、LLMのコーパスの範囲外であるため、LLMを直接利用したロボット制御には課題があった。しかし、Alter3のようなヒューマノイドロボットの場合、人間の動作を言語表現としてプログラムコードを通じてロボットの身体にマッピングすることで、直接制御が可能である。注目すべきは、このアプローチにより、Alter3が「自撮り」のポーズや「幽霊のふり」といった様々な姿勢を採用し、各身体部位に対する明示的なプログラミングなしに時間経過に伴う一連の動作を生成できることである。これは、ロボットのゼロショット学習能力を示している。さらに、言語によるフィードバックでポーズを調整できるため、微調整の必要がなくなる。Alter3の生成された動作の動画は、https://tnoinkwms.github.io/ALTER-LLM/ で閲覧可能である。
潜在拡散モデル(LDMs)は、潜在変数の時間的変化を捉え、生成システムにおいてパターンと多様性を融合させます。LDMsは、強力なテキストエンコーダと変分オートエンコーダを活用したテキストから画像への生成など、さまざまなアプリケーションで高い能力を発揮していますが、大規模な生成モデルをエッジデバイスに展開する必要性から、よりコンパクトで効果的な代替手法の探索が求められています。ポストトレーニング量子化(PTQ)は、深層学習モデルの動作サイズを圧縮する手法ですが、LDMsに適用する際には時間的および構造的な複雑さにより課題が生じます。本研究では、Signal-to-Quantization-Noise Ratio(SQNR)を評価の重要な指標として活用し、LDMsを効率的に量子化する戦略を提案します。量子化の誤差を相対的なノイズとして扱い、モデルの敏感な部分を特定することで、グローバルおよびローカルの戦略を包含する効率的な量子化アプローチを提案します。グローバル量子化プロセスでは、敏感なブロックに対して高精度の量子化を開始することで相対的な量子化ノイズを軽減し、ローカル処理では量子化に敏感なモジュールや時間に敏感なモジュールにおける特定の課題に対処します。実験結果から、グローバルおよびローカルの処理を組み合わせることで、LDMsのポストトレーニング量子化(PTQ)が非常に効率的かつ効果的に実現されることが明らかになりました。
Llama Guardを紹介します。これは、人間とAIの対話ユースケースに向けたLLMベースの入力出力保護モデルです。本モデルは、LLMプロンプト(つまりプロンプト分類)に見られる特定の安全リスクを分類するための有用なツールである安全リスク分類体系を組み込んでいます。この分類体系は、これらのプロンプトに対するLLMの応答を分類するプロセス(応答分類と呼びます)においても重要な役割を果たします。プロンプト分類と応答分類の両方の目的で、高品質なデータセットを慎重に収集しました。Llama Guardは、収集したデータセット(量は少ないものの)で命令チューニングされたLlama2-7bモデルであり、OpenAI Moderation EvaluationデータセットやToxicChatなどの既存のベンチマークにおいて、現在利用可能なコンテンツモデレーションツールと同等またはそれ以上の性能を示しています。Llama Guardは言語モデルとして機能し、マルチクラス分類を実行し、バイナリ決定スコアを生成します。さらに、Llama Guardの命令チューニングにより、タスクのカスタマイズや出力形式の適応が可能です。この機能により、特定のユースケースに合わせて分類体系のカテゴリを調整したり、入力時に多様な分類体系でゼロショットまたは少数ショットのプロンプティングを容易にしたりするなど、モデルの能力が向上します。Llama Guardのモデルウェイトを公開し、研究者がAI安全の進化するコミュニティニーズに応じてさらに開発・適応することを奨励します。
事前学習済みの大規模言語モデル(LLM)は、自然言語指示への応答性を向上させるためにファインチューニングを必要とします。フェデレーテッドラーニング(FL)は、データプライバシーを損なうことなく、エンドデバイス上の豊富なデータを使用してファインチューニングを実行する方法を提供します。既存のLLM向けフェデレーテッドファインチューニング手法の多くは、パラメータ効率的なファインチューニング技術に依存しており、フルパラメータチューニングで可能な性能の高さに到達できない場合があります。しかし、フルパラメータチューニングに関連する通信オーバーヘッドは、サーバーとクライアントの両方にとって非常に高くなります。本研究では、ゼロ次最適化(ZOO)とランダムシードのセットを採用した新しいアプローチであるFedKSeedを紹介します。これにより、デバイス上で直接、数十億規模のLLMのフェデレーテッドフルパラメータチューニングが可能になります。私たちの手法は、サーバーとクライアント間の伝送要件をわずか数個のスカラー勾配とランダムシードに大幅に削減し、わずか数千バイトに抑えます。これを基盤として、FLにおけるZOO摂動の重要性を評価する戦略を開発し、確率差別化されたシードサンプリングを可能にします。これにより、モデルの精度に大きな影響を与える摂動を優先的に選択します。異なるLLM、データセット、データ分割を用いた6つのシナリオでの実験により、私たちのアプローチが、通信効率と新規タスクの汎化性能の両面で、既存のフェデレーテッドLLMファインチューニング手法を上回ることが実証されました。
大規模言語モデル(LLM)を自動運転に活用するための様々な手法が提案されている。自動運転におけるLLMの利用戦略の一つとして、周囲の物体をテキストプロンプトとしてLLMに入力し、それらの座標や速度情報と共に、車両の次の動きを出力する方法がある。このような目的でLLMを使用する際には、空間認識や計画立案といった能力が不可欠である。特に、以下の2つの基礎的な能力が求められる:(1) 座標情報から空間を認識し、衝突を回避するための意思決定を行う空間認識型意思決定能力、(2) 交通ルールを遵守する能力。しかし、異なるタイプのLLMがこれらの問題をどの程度正確に処理できるかについて、定量的な研究は行われていない。本研究では、自動運転の文脈において、LLMのこれら2つの能力を定量的に評価した。さらに、これらの能力を実際の車両に実装する可能性を検証するための概念実証(POC)を行うため、LLMを使用して車両を運転するシステムを開発した。
Captumは、PyTorchにおけるモデルの説明可能性を提供する包括的なライブラリであり、解釈可能性に関する文献から得られた様々な手法を提供することで、ユーザーがPyTorchモデルを理解することを支援します。本論文では、生成言語モデルの動作を分析するために特別に設計されたCaptumの新機能を紹介します。利用可能な機能の概要と、生成言語モデル内で学習された関連性を理解するためのそれらの潜在的な応用例を提供します。
大規模言語モデル(LLMs)は、テキスト生成において強力な能力を発揮することが実証されています。しかし、与えられたプロンプトや指示に対して最適な結果を得ることは、特に数十億規模のモデルでは困難です。さらに、有害性や虚偽の生成といった望ましくない振る舞いが現れることがあります。ChatGPTのようなさらに大規模なモデルではこれらの問題を軽減する強みを示すかもしれませんが、完全な予防が保証されているわけではありません。本研究では、望ましくない振る舞いを最小化し、指示への忠実性を強化するために、テキスト生成を未来制約付き生成問題として形式化することを提案します。LLMsを用いて未来制約の充足度を推定し、これがテキスト生成プロセスを導きます。我々の広範な実験は、キーワード制約付き生成(Lin et al., 2020)、有害性低減(Gehman et al., 2020)、質問応答における事実的正確性(Gao et al., 2023)という3つの異なるテキスト生成タスクにおいて、提案手法の有効性を実証しています。
本論文では、特にデータの不均衡が顕著なタスク群を対象として、マルチタスク学習の最適化ダイナミクスを実証的に研究する。我々は、高リソースタスクでの事前学習を行った後、高リソース/低リソースタスクの混合データでファインチューニングを行うという、シンプルでありながら効果的な手法を提案する。この手法の利点について詳細な実証研究と分析を行い、標準的な静的重み付けの性能トレードオフプロファイルと比較して一貫した改善が得られることを示す。さらに、この手法が適用可能なデータ体制を分析し、ニューラル機械翻訳(NMT)および多言語言語モデリングにおいてその改善効果を実証的に示す。
MEGAは、最近提案されたトランスフォーマーベースのアーキテクチャであり、FFTに基づく並列計算によりO(LlogL)のスケーリングを実現する線形再帰演算子を利用している。ここで、Lはシーケンス長を表す。本研究では、このアプローチを基盤とし、線形再帰を特殊な時間的畳み込みネットワークに置き換えることで、より浅いネットワークで大きな受容野サイズを可能とし、計算複雑性をO(L)に削減した。この結果得られたモデルを、チャンク化アテンションを備えた時間的畳み込みネットワーク(TCNCA)と呼ぶ。TCNCAを、EnWik8言語モデリング、長距離シーケンス分類(LRA)、および合成推論ベンチマークである連想想起において評価した。EnWik8では、TCNCAはMEGAを上回り、トレーニング中のフォワード/バックワードパスが1.37倍/1.24倍高速であり、より低い損失を達成した。TCNCAで使用される拡張畳み込みは、GPU上でのFFTベースの並列化再帰と比較して一貫して大幅に高速な操作であり、非常に長いシーケンス長を扱うためのスケーラブルな候補となっている:最大131kのシーケンス長において、フォワード/バックワードパスで最大7.07倍/2.86倍高速である。さらにLRAにおいて、TCNCAは推論中に平均1.28倍の高速化を達成し、MEGAと同等の精度を維持した。連想想起においては、過剰な乗算的および加算的相互作用を省いた簡略化版のTCNCAでさえ、様々なシーケンス長と語彙サイズにおいてMEGAに対して優位または競争力のある性能を示した。