翻訳付きの日次キュレーションされたAI研究論文
生成型大規模言語モデル(LLMs)は数多くの新たな可能性を開拓しましたが、その膨大な計算リソース要件のため、広範な利用は依然として課題となっています。特に有用なアプリケーションの一部では、一度に大量のサンプルを処理し、長いコンテキストを使用する必要があり、これらはモデルのメモリ通信負荷を大幅に増加させます。本論文では、SparQ Attentionを紹介します。これは、アテンションブロック内のメモリ帯域幅要件を、キャッシュされた履歴の選択的フェッチによって削減し、LLMsの推論スループットを向上させる技術です。提案手法は、推論時に既存のLLMsに直接適用可能であり、事前学習の設定変更や追加のファインチューニングを必要としません。Llama 2およびPythiaモデルを幅広い下流タスクで評価することで、SparQ Attentionが精度を損なうことなくアテンションメモリ帯域幅要件を最大8倍削減できることを示します。
本論文では、高品質なカスタマイズされた人間のダンス動画を生成するための、拡散モデルベースの制御可能な動画生成フレームワーク「DreaMoving」を提案する。具体的には、対象となる人物のIDとポーズシーケンスが与えられた場合、DreaMovingはポーズシーケンスに基づいて、その人物が任意の場所でダンスする動画を生成することができる。これを実現するために、モーション制御のための「Video ControlNet」と、IDを保持するための「Content Guider」を提案する。提案モデルは使いやすく、ほとんどのスタイル化された拡散モデルに適応可能で、多様な結果を生成することができる。プロジェクトページはhttps://dreamoving.github.io/dreamovingで公開されている。
3D生成研究の多くは、2D基盤モデルを3D空間にアッププロジェクションすることに焦点を当てており、2Dスコア蒸留サンプリング(SDS)損失の最小化やマルチビューデータセットでのファインチューニングによって実現されています。明示的な3D事前情報がない場合、これらの手法は幾何学的な異常やマルチビューの不整合を引き起こすことがあります。最近では、研究者たちが3Dデータセット上で直接学習することで3Dオブジェクトの真実性を向上させようと試みていますが、3Dデータセットのテクスチャ多様性が限られているため、低品質なテクスチャ生成が課題となっています。両アプローチの利点を活かすために、我々は双方向拡散(BiDiff)を提案します。これは、3D忠実度と2Dテクスチャの豊かさをそれぞれ保持するために、3Dと2Dの拡散プロセスを統合したフレームワークです。さらに、単純な組み合わせでは一貫性のない生成結果が得られる可能性があるため、新たな双方向ガイダンスによってそれらを橋渡しします。加えて、我々の手法は最適化ベースのモデルの初期化として使用でき、3Dモデルの品質と最適化の効率をさらに向上させ、生成プロセスを3.4時間から20分に短縮します。実験結果は、我々のモデルが高品質で多様かつスケーラブルな3D生成を実現することを示しています。プロジェクトウェブサイト: https://bidiff.github.io/。
テキストからビデオを生成するモデルにカスタムモーションを追加する手法を提案し、元のトレーニングデータに含まれるモーションを超える能力を拡張します。特定の動きを示す少数のビデオサンプルを入力として活用することで、本手法は入力されたモーションパターンを学習し、多様なテキスト指定シナリオに一般化します。我々の貢献は三つあります。第一に、結果を達成するために、既存のテキストからビデオを生成するモデルをファインチューニングし、入力例に描かれたモーションと新しいユニークなトークンとの間の新たなマッピングを学習します。新しいカスタムモーションへの過剰適合を避けるため、ビデオに対する正則化手法を導入します。第二に、事前学習済みモデル内のモーション事前分布を活用することで、本手法は複数の人物がカスタムモーションを行う新規ビデオを生成でき、また他のモーションと組み合わせてそのモーションを呼び出すことが可能です。さらに、本アプローチは個別化された対象のモーションと外観のマルチモーダルなカスタマイズにも拡張され、ユニークなキャラクターと特徴的なモーションを備えたビデオの生成を可能にします。第三に、本手法を検証するため、学習されたカスタムモーションを定量的に評価する手法を導入し、体系的なアブレーションスタディを実施します。本手法が、モーションカスタマイズタスクに拡張された場合、従来の外観ベースのカスタマイズ手法を大幅に上回ることを示します。
大規模言語モデルの最近の進展に伴い、推論チェーンを引き出すための連鎖的思考プロンプティングなどの手法が、推論タスクにおける結果の改善に有効であることが示されています。しかし、複数の推論ステップを必要とするタスクは、最先端のモデルにとっても依然として大きな課題となっています。ビームサーチアルゴリズムに着想を得て、我々はPathFinderを提案します。これは、木探索ベースの推論パス生成アプローチであり、動的デコーディングを統合することで多様な分岐とマルチホップ推論を強化します。これは、様々なサンプリング方法とパラメータによって実現されます。制約付き推論を用いることで、PathFinderは新たな品質制約、枝刈り、探索方法を統合し、生成の効率と品質を向上させます。さらに、候補選択を改善するためのスコアリングとランキング機能を備えています。我々のアプローチは、3つの複雑な算術および常識推論タスクにおいて、競合するベースラインを平均6%上回りました。また、我々のモデルは、長く未見の推論チェーンにもうまく一般化し、大きな分岐係数を伴うビームサーチと同様の複雑さを反映しています。
ノイズ除去拡散モデルは2D画像生成において優れた結果を示していますが、その成功を3D形状生成に再現することは依然として課題です。本論文では、複雑な3D形状をノイズ除去しやすい2Dデータ形式で表現するマルチビューデプスを活用することを提案します。この表現を拡散モデルMVDDと組み合わせることで、20,000点以上の高密度点群を細部まで高品質に生成することが可能です。マルチビューデプスの3D一貫性を強化するために、エピポーラ線分アテンションを導入し、あるビューのノイズ除去ステップを隣接ビューに条件付けします。さらに、拡散ステップに深度融合モジュールを組み込むことで、深度マップの整合性をさらに確保します。表面再構成を組み合わせることで、MVDDは高品質な3Dメッシュも生成できます。さらに、MVDDは深度補完などの他のタスクでも優れており、3D事前分布として機能することで、GAN逆変換などの多くの下流タスクを大幅に向上させることができます。広範な実験による最先端の結果は、MVDDの3D形状生成、深度補完における優れた能力、および下流タスクのための3D事前分布としての潜在的可能性を示しています。
我々は、早期終了型大規模言語モデル(LLM)の大規模な訓練と推論のためのフレームワークであるEE-LLMを提案する。最近の研究では、LLM推論の高速化における早期終了の有効性が示唆されているが、EE-LLMは、大規模な3D並列処理を用いて早期終了型LLMの訓練と推論をサポートすることで、この分野における基盤的な一歩を踏み出した。Megatron-LMを基盤として構築されたEE-LLMは、早期終了に特化した様々なアルゴリズムの革新と性能最適化を実装している。これには、パイプライン並列処理を用いた早期終了訓練目的のための軽量な逆伝播手法、元のパイプラインスケジュールにおけるアイドルリソースを活用して早期終出層に関連する計算を行う技術、そして自己回帰生成におけるKVキャッシュと互換性のある2つの早期終了推論手法が含まれる。我々の分析と実証研究により、EE-LLMは標準的なLLM訓練と比較して無視できる程度の計算オーバーヘッドで高い訓練効率を達成し、出力品質を損なうことなく優れた推論速度向上を実現することが示された。さらなる研究と採用を促進するため、我々はEE-LLMをhttps://github.com/pan-x-c/EE-LLMで公開している。
指示追従型の視覚言語(VL)モデルは、ゼロショット設定で幅広いマルチモーダルタスクをサポートする柔軟なインターフェースを提供します。しかし、画像全体を操作するインターフェースでは、ユーザーが画像内の特定の領域を「指し示し」アクセスすることを直接的に可能にしません。この機能は、参照に基づいたVLベンチマークをサポートするだけでなく、画像内での精密な推論を必要とする実用的なアプリケーションにおいても重要です。我々は、ユーザーが(複数の)領域を入力として指定できる「局所化された視覚的常識モデル」を構築しました。このモデルは、大規模言語モデル(LLM)から局所的な常識知識をサンプリングすることで学習されます。具体的には、VLモデルのセットによって自動生成されたグローバルな文字通りの画像記述とローカルな文字通りの領域記述を基に、LLMに常識知識を収集するよう促します。高品質な例を選択するために別途訓練された批評モデルを用いることで、局所化された常識コーパスでの学習が、参照を入力とするインターフェースをサポートするために既存のVLモデルを蒸留することに成功することを発見しました。ゼロショット設定での実験結果と人間による評価は、生成された参照表現をLLMに渡すベースラインと比較して、我々の蒸留手法がより精密な推論を行うVLモデルを実現することを示しています。