翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)がさまざまな分野で重要性を増す中、LLM推論の高速化において以下の課題が未解決のまま残されている。(1) 同期化された部分的なソフトマックス更新。ソフトマックス演算では、各部分的なソフトマックス結果間で同期化された更新操作が必要であり、これによりLLMの注意計算において約20%のオーバーヘッドが生じる。(2) 平坦なGEMM計算の低効率化。LLM推論におけるGEMM演算の行列形状は平坦であり、これにより計算効率が低下し、従来の設計ではゼロ埋めを行った後に50%以上の性能損失が発生する。(3) 静的なデータフローによる性能損失。LLMにおけるカーネル性能は、入力データの特徴やハードウェア構成などに依存する。単一で静的なデータフローでは、LLM推論における異なる形状のGEMMに対して最大50.25%の性能損失が生じる可能性がある。 本論文では、主流のLLMとハードウェアバックエンドをサポートする高速なLLM推論エンジンであるFlashDecoding++を提案する。上記の課題に対処するため、FlashDecoding++は以下の革新的な手法を提案する。(1) 統一された最大値を持つ非同期ソフトマックス。FlashDecoding++は、異なる部分的なソフトマックス計算に対して統一された最大値技術を導入し、同期化を回避する。(2) ダブルバッファリングを活用した平坦なGEMM最適化。FlashDecoding++は、異なる形状の平坦なGEMMがさまざまなボトルネックに直面することを指摘し、ダブルバッファリングなどの技術を導入する。(3) ハードウェアリソース適応型のヒューリスティックデータフロー。FlashDecoding++は、入力の動的特性を考慮し、異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。FlashDecoding++の最適化手法の汎用性により、NVIDIAおよびAMD GPUにおいて、Hugging Faceの実装と比較して最大4.86倍および2.18倍の高速化を実現する。さらに、主流のLLMにおいて、最先端のLLM推論エンジンと比較して平均1.37倍の高速化を達成する。
我々はRoboGenを紹介する。これは生成シミュレーションを通じて大規模に多様なロボットスキルを自動学習する生成型ロボットエージェントである。RoboGenは、基盤モデルと生成モデルの最新の進歩を活用している。これらのモデルを直接使用したり、ポリシーや低レベルのアクションを生成するために適応させるのではなく、我々は生成スキームを提唱する。このスキームでは、これらのモデルを使用して多様なタスク、シーン、およびトレーニングの監督を自動生成し、最小限の人間の監督でロボットスキル学習をスケールアップする。我々のアプローチは、ロボットエージェントに自己誘導型の提案-生成-学習サイクルを装備する。エージェントはまず、開発する興味深いタスクとスキルを提案し、次に関連するオブジェクトとアセットを適切な空間構成で配置して対応するシミュレーション環境を生成する。その後、エージェントは提案された高レベルのタスクをサブタスクに分解し、最適な学習アプローチ(強化学習、モーションプランニング、または軌道最適化)を選択し、必要なトレーニング監督を生成し、提案されたスキルを習得するためのポリシーを学習する。我々の研究は、大規模モデルに埋め込まれた広範で多用途な知識を抽出し、それをロボティクスの分野に転移しようとする試みである。我々の完全生成型パイプラインは繰り返しクエリ可能で、多様なタスクと環境に関連するスキルデモンストレーションの無限のストリームを生成する。
ニューラルネットワークをべき等(idempotent)に訓練する新しい生成モデリング手法を提案する。べき等演算子とは、繰り返し適用しても最初の適用結果を超えて変化しない演算子、すなわちf(f(z))=f(z)を満たすものである。提案モデルfは、以下の目的関数を用いて、ソース分布(例:ガウスノイズ)からターゲット分布(例:リアルな画像)へのマッピングを学習する:(1) ターゲット分布からのインスタンスはそれ自身にマッピングされる、すなわちf(x)=x。ターゲット多様体を、fによってそれ自身にマッピングされる全てのインスタンスの集合として定義する。(2) ソース分布を構成するインスタンスは、定義されたターゲット多様体上にマッピングされる。これはべき等項f(f(z))=f(z)を最適化することで達成され、f(z)の出力範囲がターゲット多様体上にあることを促す。理想的な仮定の下では、このプロセスはターゲット分布に収束することが証明されている。この戦略により、一ステップで出力を生成可能で、一貫した潜在空間を維持しつつ、精緻化のための逐次適用も可能なモデルが得られる。さらに、ターゲット分布とソース分布の両方からの入力を処理することで、モデルは破損または修正されたデータをターゲット多様体に適切に投影できることがわかる。本手法は、任意の入力をターゲットデータ分布に投影可能な「グローバルプロジェクター」に向けた第一歩である。
我々は、拡散モデルに基づいたシンプルで効率的なエンドツーエンドのテキスト音声合成モデルであるEasy End-to-End Diffusion-based Text to Speech(E3 TTS)を提案する。E3 TTSは、プレーンテキストを直接入力として受け取り、反復的な精緻化プロセスを通じて音声波形を生成する。多くの先行研究とは異なり、E3 TTSはスペクトログラム特徴量やアライメント情報といった中間表現に依存しない。代わりに、E3 TTSは拡散プロセスを通じて波形の時間的構造をモデル化する。追加の条件付け情報に頼ることなく、E3 TTSは与えられた音声内の柔軟な潜在構造をサポートすることができる。これにより、E3 TTSは編集などのゼロショットタスクに追加のトレーニングなしで容易に適応可能となる。実験結果は、E3 TTSが高忠実度の音声を生成し、最先端のニューラルTTSシステムの性能に迫ることを示している。音声サンプルはhttps://e3tts.github.ioで公開されている。
分布シフトは、機械学習モデルの実世界データへの適用における中心的な課題である。特にテキストから音声を生成するタスクにおいて、エンコードされた表現は未知のプロンプトによって容易に損なわれ、生成音声の品質低下を引き起こす。テキストと音声のペアの限られたセットは、ユーザーのプロンプトが不十分に指定されているため、実世界での条件付き音声生成には不十分である。具体的には、トレーニングセットのプロンプトと比較して、ユーザープロンプトを用いた生成音声サンプルにおいて一貫した音質の低下が観察される。この問題に対処するため、我々はトレーニングキャプションをデモンストレーション例として活用し、ユーザープロンプトを再考する検索ベースのインコンテキストプロンプト編集フレームワークを提案する。このフレームワークにより、トレーニングキャプションを参照例として編集されたユーザープロンプトセット全体で音質が向上することを示す。
本論文では、長期的および中期的な推論に使用可能な、スケーラブルでボトムアップ型の本質的に多様なデータ収集手法を提案する。この手法は、従来の狭いトップダウン型の段階的収集と比較して2.2倍のスループットを実現する。3つのオフィスビル全体でユーザーリクエストを実行し、複数のロボットおよび人間のエンボディメントを使用することで、現実的なデータを収集した。このデータを用いて、すべてのエンボディメントで訓練されたモデルが、ロボットエピソードのみで評価された場合でも、ロボットデータのみで訓練されたモデルよりも優れた性能を示すことを実証した。また、固定された収集予算において、より低コストな人間による収集をロボット収集と併用することが有益であることを発見した。ロボティクスに焦点を当てた視覚的質問応答(VQA)のための大規模で高度に多様なデータセット「RoboVQA」を公開した。このデータセットは29,520のユニークな指示を含む829,502の(動画、テキスト)ペアで構成されている。さらに、介入メカニズムを用いた実ロボット実験の評価が、タスクを完了させることを可能にし、不完全であっても人間の監視下で展開可能にするとともに、単一の性能指標を提供することを示した。提案したデータセットで訓練された単一の動画条件付きモデル「RoboVQA-VideoCoCa」を実証し、広範な現実的な設定で様々なグラウンデッドな高レベル推論タスクを実行可能であり、ゼロショットの最先端視覚言語モデル(VLM)ベースラインと比較して認知介入率が46%低く、長期的タスクを通じて実ロボットを誘導できることを示した。ゼロショットの最先端モデルとの性能差は、実世界での展開に向けてまだ多くのグラウンデッドデータが収集される必要があることを示しており、スケーラブルなデータ収集手法の重要性を強調している。最後に、動画VLMが単一画像VLMを大幅に上回り、すべてのVQAタスクにおいて平均エラー率が19%減少することを示した。データと動画はhttps://robovqa.github.ioで公開されている。