翻訳付きの日次キュレーションされたAI研究論文
本論文は、クラウドコストの増加とレイテンシに関する懸念から、モバイルデバイス向けの効率的な大規模言語モデル(LLM)の必要性が高まっている現状に対処する。我々は、モバイル展開に適した実用的な選択肢として、10億パラメータ未満の高品質LLMの設計に焦点を当てる。モデルの品質を決定する上でデータとパラメータ量の重要性が強調される一般的な見解とは対照的に、我々の調査は、10億規模未満のLLMにおいてモデルアーキテクチャの重要性を浮き彫りにしている。深くて細いアーキテクチャを活用し、埋め込み共有とグループ化クエリ注意メカニズムを組み合わせることで、MobileLLMと称する強力なベースラインネットワークを確立し、先行する1億2500万/3億5000万パラメータの最先端モデルに対して2.7%/4.3%の精度向上を達成した。さらに、モデルサイズの増加なしに、わずかなレイテンシオーバーヘッドのみで即時ブロック単位の重み共有アプローチを提案する。その結果得られたMobileLLM-LSモデルは、MobileLLM 1億2500万/3億5000万モデルに対してさらに0.7%/0.8%の精度向上を示した。さらに、MobileLLMモデルファミリーは、従来の10億規模未満のモデルと比較してチャットベンチマークで大幅な改善を示し、API呼び出しタスクにおいてLLaMA-v2 7Bに近い正確性を実証し、一般的なオンデバイスユースケースにおける小型モデルの能力を強調している。
私たちはGenieを紹介します。これは、ラベル付けされていないインターネット動画から教師なし学習で訓練された初めての生成的インタラクティブ環境です。このモデルは、テキスト、合成画像、写真、さらにはスケッチで記述された、アクション制御可能な仮想世界を無限に生成することができます。110億パラメータを持つGenieは、基盤となる世界モデルと見なすことができます。これは、時空間的ビデオトークナイザー、自己回帰的ダイナミクスモデル、そしてシンプルでスケーラブルな潜在アクションモデルで構成されています。Genieは、世界モデルの文献で一般的に見られるような真のアクションラベルや他のドメイン固有の要件なしに訓練されているにもかかわらず、ユーザーが生成された環境でフレームごとにアクションを取ることを可能にします。さらに、結果として学習された潜在アクション空間は、未見の動画から行動を模倣するエージェントの訓練を容易にし、将来の汎用エージェントの訓練への道を開きます。
本論文は、LLM(大規模言語モデル)によって生成されたテキストの放射性、すなわちそのような入力が訓練データとして使用されたかどうかを検出可能かどうかを調査する。従来のメンバーシップ推論のような手法は、ある程度の精度でこの検出を実行できる。我々は、透かしを施した訓練データが、メンバーシップ推論よりも検出が容易で、はるかに信頼性の高い痕跡を残すことを示す。汚染レベルを、透かしの堅牢性、訓練セット内での割合、およびファインチューニングプロセスに関連付ける。特に、透かしを施した合成指示文で訓練を行った場合、訓練テキストのわずか5%が透かし入りであっても、高い信頼度(p値 < 1e-5)で検出可能であることを実証する。したがって、元々機械生成テキストの検出のために設計されたLLMの透かし技術は、透かし入りのLLMの出力が別のLLMのファインチューニングに使用されたかどうかを容易に識別する能力を提供する。
最近の研究では、大規模言語モデル(LLM)が主要タスクのサブタスクを先に解決するよう促すことで、推論タスクをより良く解決できることが示されています。本論文では、推論タスクを問題分解フェーズと問題解決フェーズに分割する類似の戦略を考案し、この戦略が単一ステージの解決策を上回ることを示します。さらに、問題解決には大量のドメイン知識が必要であるのに対し、問題分解は一般的な問題解決戦略を学ぶだけで済むため、分解の方がより小さなモデルに蒸留しやすいと仮説を立てます。我々は、これら2つの能力を蒸留する方法を提案し、推論結果と推論コストへの影響を評価します。その結果、問題分解フェーズを蒸留しつつ、タスク、データセット、モデル間で良好な汎化性能を達成できることがわかりました。しかし、問題解決能力を蒸留するのは性能を損なわずに達成するのが難しく、結果として得られた蒸留モデルは汎化に苦戦します。これらの結果は、より小さな蒸留された問題分解モデルを問題解決LLMと組み合わせることで、コスト効率の良い推論とローカル適応を実現できることを示唆しています。
本研究では、量子化の次元数を増やすことで、ニューラルネットワークのサイズと精度のトレードオフを大幅に改善できることを示します。我々は、大規模言語モデル(LLM)に適した新しい高速なポストトレーニングベクトル量子化(VQ)手法であるGPTVQを提案します。この手法では、1つ以上の列の量子化と、残りの未量子化重みの更新を、層ごとの出力再構成MSEのヘッシアン情報を利用して交互に行います。量子化コードブックは、効率的なデータ認識型EMアルゴリズムを用いて初期化されます。その後、コードブックを更新し、整数量子化とSVDベースの圧縮を用いてさらに圧縮します。GPTVQは、Llama-v2やMistralなどの幅広いLLMにおいて、サイズと精度のトレードオフにおいて新たな最先端を確立します。さらに、本手法は効率的であり、単一のH100上でLlamav2-70Bモデルを処理するのに、量子化設定に応じて3時間から11時間かかります。最後に、モバイルCPU上でのVQ展開のオンデバイス計測結果から、VQが4ビット整数フォーマットを使用する場合と比較してレイテンシが改善されることを示します。
Self-attentionは大規模言語モデル(LLM)の重要な構成要素であるが、長いシーケンスに対する推論レイテンシの主要な原因でもある。マルチテナントLLMサービングシナリオでは、複数のLLMリクエストがプレフィックスとして共有システムプロンプトを持つ確率を利用することで、self-attentionの計算コストとメモリ操作コストを最適化できる。本論文では、ChunkAttentionを紹介する。これはプレフィックスを認識するself-attentionモジュールであり、複数のリクエスト間で一致するプロンプトプレフィックスを検出し、実行時にそれらのキー/バリューテンソルをメモリ内で共有することで、KVキャッシュのメモリ使用効率を向上させる。これは、単一のキー/バリューテンソルを小さなチャンクに分割し、それらを補助的なプレフィックスツリーに構造化することで実現される。その結果、プレフィックスツリーベースのKVキャッシュ上で、共有システムプロンプトが存在する場合のself-attention計算中のデータ局所性を改善するために、2段階のパーティションアルゴリズムを実装した効率的なself-attentionカーネルを設計した。実験結果によると、ChunkAttentionは最先端の実装と比較して、システムプロンプトの長さが1024から4096の範囲で、self-attentionカーネルを3.2~4.8倍高速化できることが示された。
本論文は、入力長の拡張が大規模言語モデル(LLMs)の能力に与える影響を探求する。近年のLLMsの進歩にもかかわらず、異なる入力長における性能の一貫性は十分に理解されていない。我々は、入力長の影響を評価するために特別に設計された新しいQA推論フレームワークを導入し、この側面を調査する。同一サンプルの複数バージョンを用いて、異なる長さ、種類、位置のパディングで拡張することで、入力長の効果を分離する。我々の調査結果は、LLMsの技術的な最大値よりもはるかに短い入力長において、推論性能が顕著に低下することを示している。この低下傾向は、データセットのすべてのバージョンで見られるが、その強度は異なる。さらに、従来のパープレキシティ指標は、長い入力推論タスクにおけるLLMsの性能と相関しないことが明らかになった。我々は結果を分析し、将来の研究に有用なガイドとなる失敗モードを特定し、LLMsで観察された制限に対処するための戦略に情報を提供する可能性がある。
大規模言語モデル(LLM)を基盤とした自律エージェントは、大きな研究関心を集めています。しかし、多様なデータソースにまたがるマルチターン軌跡の異質性により、エージェントベースのタスクにおいてLLMの潜在能力を十分に活用することには固有の課題があります。本論文では、これらの課題に対処する包括的なソリューションとしてAgentOhanaを紹介します。AgentOhanaは、さまざまなシナリオにわたる異なる環境からのエージェント軌跡を集約し、これらの軌跡を注意深く標準化して統一された形式に変換します。これにより、エージェントトレーニングに最適化された汎用データローダーの作成が効率化されます。データの統一を活用することで、私たちのトレーニングパイプラインは異なるデータソース間の均衡を維持し、データセットの分割やモデルトレーニング中にデバイス間で独立したランダム性を保持します。さらに、AIエージェント向けに設計された大規模アクションモデルxLAM-v0.1を提示し、これはさまざまなベンチマークで卓越した性能を示しています。
条件付き人間動作生成は、仮想現実、ゲーム、ロボット工学など多くの応用が可能な重要なトピックです。これまでの研究では、テキスト、音楽、シーンに基づいて動作を生成することに焦点が当てられてきましたが、これらは通常、短時間に限定された孤立した動作に留まっていました。本論文では、一連の変化するテキスト記述に基づいて、長く連続的なシーケンスを生成する問題に取り組みます。この文脈において、我々はFlowMDMを提案します。これは、後処理や冗長なノイズ除去ステップを必要とせずに、シームレスな人間動作合成(HMC)を生成する初の拡散モデルです。このために、我々はBlended Positional Encodingsという技術を導入しました。これは、ノイズ除去チェーンにおいて絶対的位置エンコーディングと相対的位置エンコーディングの両方を活用するものです。具体的には、絶対段階でグローバルな動作の一貫性を回復し、相対段階で滑らかで現実的な遷移を構築します。その結果、BabelおよびHumanML3Dデータセットにおいて、精度、リアリズム、滑らかさの点で最先端の結果を達成しました。FlowMDMは、Pose-Centric Cross-ATtentionのおかげで、各動作シーケンスに単一の記述のみで訓練された場合でも優れた性能を発揮し、推論時に変化するテキスト記述に対してロバストです。最後に、既存のHMCメトリクスの限界に対処するために、急激な遷移を検出するための2つの新しいメトリクス、Peak JerkとArea Under the Jerkを提案します。
大規模言語モデル(LLMs)がツールや外部のアプリケーションプログラミングインターフェース(APIs)を効果的に活用し、タスクを計画・完了する必要性が高まっています。そのため、ツールやAPIの呼び出しを含む十分な量の訓練データとテストデータを取得する方法に対する関心が非常に高まっています。この課題に対処するための主要な戦略として、2つの研究アプローチが浮上しています。1つ目は合成データ生成技術に焦点を当てたもので、2つ目はAPIやツールベースのタスクに変換可能なタスク関連データセットをキュレーションするものです。本論文では、既存のデータセットを特定し、キュレーションし、変換するタスクに焦点を当て、ツール拡張型LLMsの訓練と体系的なテストのための大規模なコーパスであるAPI-BLENDを紹介します。このデータセットは、API/ツール検出、スロットフィリング、検出されたAPIのシーケンス化など、APIタスクを含む現実世界のシナリオを模倣しています。API-BLENDデータセットが、訓練とベンチマークの両方の目的で有用であることを実証します。