翻訳付きの日次キュレーションされたAI研究論文
私たちはLumiereを紹介します。これは、現実的で多様かつ一貫した動きを描写するビデオを合成するために設計されたテキストからビデオへの拡散モデルであり、ビデオ合成における重要な課題に取り組んでいます。この目的のために、Space-Time U-Netアーキテクチャを導入し、モデル内で一度にビデオの全時間的期間を生成します。これは、遠隔のキーフレームを合成し、その後時間的な超解像を行う既存のビデオモデルとは対照的であり、そのアプローチではグローバルな時間的一貫性を達成することが本質的に困難です。空間的および(特に重要な)時間的なダウンサンプリングとアップサンプリングを展開し、事前に訓練されたテキストから画像への拡散モデルを活用することで、私たちのモデルは、複数の時空間スケールで処理することにより、フルフレームレートの低解像度ビデオを直接生成することを学びます。私たちは、最先端のテキストからビデオへの生成結果を示し、私たちの設計が、画像からビデオ、ビデオインペインティング、スタイライズされた生成など、幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に促進することを示します。
2023年、大規模視覚言語モデル(LVLM)を扱うことはAIコミュニティでトレンドとなっています。しかし、人気のあるLVLMはパラメータ数が比較的多く(7B以上)、コンシューマー向けGPUでの学習やデプロイが困難であり、リソースが限られた多くの研究者にとって障壁となっています。古いGTX1080ti(私たちの唯一のゲーム用GPU)で現在のLVLMのすべての機能を体験できたらどれほど素晴らしいだろうか。そこで本報告では、Qwen-1.8Bをベースとした小型のVary、Vary-toyを提案します。Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての機能を保持するだけでなく、より汎用的な能力を獲得できるようにしました。具体的には、視覚語彙を生成するプロセスにおいて、自然画像のネガティブサンプルを物体検出によって得られたポジティブサンプルデータに置き換えることで、語彙ネットワークの容量をより十分に活用し、自然物体に対応する視覚情報を効率的にエンコードできるようにしました。実験では、Vary-toyはDocVQAで65.6%のANLS、ChartQAで59.1%の精度、RefCOCOで88.1%の精度、MMVetで29%の精度を達成しました。コードはホームページで公開予定です。
言語、視覚、そして最近では動作を統合した基盤モデルは、インターネット規模のデータを活用して有用なタスクを推論する能力に革命をもたらしました。しかし、具現化された基盤モデルを訓練する際の主要な課題の一つは、物理世界に根ざしたデータの不足です。本論文では、AutoRTというシステムを提案します。AutoRTは、既存の基盤モデルを活用して、人間の監督を最小限に抑えながら、完全に未経験のシナリオでの運用ロボットの展開をスケールアップします。AutoRTは、視覚言語モデル(VLM)を活用してシーン理解と接地を行い、さらに大規模言語モデル(LLM)を使用して、ロボット群が実行する多様で新しい指示を提案します。基盤モデルの知識を活用してデータ収集を導くことで、AutoRTは自律性のトレードオフと安全性を効果的に推論しつつ、ロボット学習のためのデータ収集を大幅にスケールアップすることができます。AutoRTが複数の建物にわたる20台以上のロボットに指示を提案し、テレオペレーションと自律ロボットポリシーを通じて77,000の実ロボットエピソードを収集したことを実証します。実験的に、AutoRTによって収集された「実環境」データが大幅に多様であること、およびAutoRTがLLMを使用することで、人間の好みに沿った指示追従データ収集ロボットを可能にすることを示します。
大規模言語モデル(LLM)は、推論時に自己回帰生成を採用することが一般的であり、これにより高いメモリ帯域幅の需要が生じ、結果としてレイテンシが長くなります。この非効率性を軽減するため、我々はBi-directional Tuning for Lossless Acceleration(BiTA)を提案します。これは、効率的な半自己回帰生成とドラフト検証を通じてLLMを高速化する革新的な手法です。プロンプトチューニングの概念に着想を得て、我々はLLMを双方向チューニングと呼ばれるパラメータ効率の高い設計で強化し、半自己回帰生成の能力を向上させます。効率的なツリーベースのデコーディングを採用することで、モデルはドラフト候補の生成と検証を並行して実行し、貪欲サンプリング下で自己回帰モデルと同一の出力を保証します。BiTAは軽量なプラグインモジュールとして機能し、追加の支援モデルを必要とせず、大幅な追加メモリコストを発生させることなく、既存のLLMの推論効率をシームレスに向上させます。提案されたBiTAを適用することで、LLaMA-2-70B-ChatはMT-Benchベンチマークで2.7倍の高速化を達成しました。広範な実験により、我々の手法が最先端の高速化技術を凌駕することが確認されています。
本論文では、単層の衣服付き3D人体メッシュを入力として、完全な多層3Dアセットに分解するフレームワーク「GALA」を提案します。この出力は他のアセットと組み合わせることで、任意のポーズを持つ新しい衣服付き人間アバターを作成することができます。既存の再構成手法では、衣服付き人間を単層のジオメトリとして扱い、髪型、衣服、アクセサリーを含む人間の本質的な構成性を見落とすことが多く、そのためメッシュの下流アプリケーションにおける有用性が制限されています。単層メッシュを個別の層に分解することは、深刻に遮蔽された領域の妥当なジオメトリとテクスチャを合成する必要があるため、困難な課題です。さらに、分解が成功した場合でも、メッシュはポーズや体型に関して正規化されておらず、新しいアイデンティティやポーズとの一貫した合成に失敗します。これらの課題に対処するため、我々は事前学習済みの2D拡散モデルの一般的な知識を、人間や他のアセットのジオメトリと外観の事前情報として活用することを提案します。まず、多視点2Dセグメンテーションから抽出した3D表面セグメンテーションを使用して入力メッシュを分離します。次に、新しいポーズ誘導型スコア蒸留サンプリング(SDS)損失を使用して、ポーズ空間と正規空間の両方で異なる層の欠損ジオメトリを合成します。高忠実度の3Dジオメトリのインペインティングが完了したら、同じSDS損失をテクスチャにも適用して、最初に遮蔽されていた領域を含む完全な外観を取得します。一連の分解ステップを通じて、ポーズと人体形状に関して正規化された共有正規空間内で複数の層の3Dアセットを取得し、新しいアイデンティティとの合成や新しいポーズでの再アニメーションを容易にサポートします。実験により、既存のソリューションと比較して、分解、正規化、合成タスクにおける我々のアプローチの有効性が実証されました。
大規模モデルの時代において、デコードの自己回帰的な性質はしばしばレイテンシを重大なボトルネックとして引き起こします。本論文では、アクセラレータハードウェアの並列化能力を効果的に活用する非自己回帰型LM融合ASRシステムを提案します。我々のアプローチは、Universal Speech Model (USM)とPaLM 2言語モデルをセグメント単位のスコアリングモードで組み合わせ、FLEURSでは平均10.8%、YouTubeキャプショニングでは3.6%の相対的なWER改善を達成しました。さらに、我々は包括的なアブレーションスタディを通じて、LLMサイズ、コンテキスト長、語彙サイズ、融合方法論といった主要なパラメータを分析しました。例えば、128Mから340BパラメータまでのLLMサイズがASR性能に与える影響を調査しています。本研究は、実用的な大規模LM融合音声認識システムの有効性に影響を与える要因について貴重な知見を提供します。