翻訳付きの日次キュレーションされたAI研究論文
拡散ベースのビデオ生成技術の導入により、音声条件付きの人間ビデオ生成は最近、動きの自然さと肖像の詳細の合成の両方で重要な進展を遂げました。音声信号を用いて人間の動きを制御する際の制約が大きいため、従来の手法ではしばしば補助的な空間信号を追加して運動を安定させることが行われてきましたが、これは動きの自然さや自由度を損なう可能性があります。本論文では、エンドツーエンドの音声のみに依存するビデオ拡散モデル「Loopy」を提案します。具体的には、クリップ間およびクリップ内の時間モジュールと音声から潜在変数へのモジュールを設計し、モデルがデータから長期の動き情報を活用して自然な動きパターンを学習し、音声と肖像の動きの相関を向上させることが可能となります。この手法により、既存の手法で推論中に運動を制約するために使用されていた手動で指定された空間運動テンプレートの必要性がなくなります。幅広い実験により、Loopyが最近の音声駆動の肖像拡散モデルを凌駕し、さまざまなシナリオでよりリアルな高品質な結果を提供することが示されました。
マルチモーダル大規模言語モデル(MLLMs)の長いコンテキスト能力を拡張することは、ビデオ理解、高解像度画像理解、およびマルチモーダルエージェントにとって重要です。これには、モデルアーキテクチャ、データ構築とトレーニング戦略を含む一連の体系的最適化が必要であり、特により多くの画像や高い計算コストといった課題に対処することが求められます。本論文では、MambaとTransformerブロックのハイブリッドにモデルアーキテクチャを適応し、複数の画像間の時間的および空間的依存関係を考慮したデータ構築アプローチを採用し、プログレッシブなトレーニング戦略を用いています。公開されたモデルLongLLaVA(Long-Context Large Language and Vision Assistant)は、初のハイブリッドMLLMであり、効率と効果のバランスを向上させました。LongLLaVAは、さまざまなベンチマークで競争力のある結果を達成するだけでなく、高いスループットと低いメモリ消費を維持しています。特に、A100 80GBの単一GPUでほぼ千枚の画像を処理できるため、幅広いタスクにおける有望な応用展望が示されています。
現在の長い文脈を持つ大規模言語モデル(LLM)は、広範囲のテキストに基づいたユーザーの質問に回答する能力を示していますが、その回答に引用がないため、ユーザーの検証が困難であり、潜在的な幻覚による信頼性への懸念が生じています。本研究では、長い文脈を持つLLMが、細かい文レベルの引用を含む回答を生成できるようにし、その忠実性と検証可能性を向上させることを目指します。まず、現在のLLMの長い文脈における質問応答と引用(LQAC)のパフォーマンスを評価するための自動ベンチマークであるLongBench-Citeを導入し、改善の余地があることを明らかにします。そのために、オフザシェルフのLLMを利用して長い文脈のQAインスタンスを自動的に生成し、正確な文レベルの引用を含むCoF(Coarse to Fine)という新しいパイプラインを提案し、このパイプラインを利用してLQAC向けの大規模なSFTデータセットであるLongCite-45kを構築します。最後に、LongCite-45kデータセットを使用してLongCite-8BおよびLongCite-9Bをトレーニングし、正確な回答と細かい文レベルの引用を一つの出力で生成できるようにします。LongBench-Citeでの評価結果は、トレーニングされたモデルがGPT-4oを含む先進的なプロプライエタリモデルを上回り、最先端の引用品質を達成していることを示しています。
本論文では、Massive Multi-discipline Multimodal Understanding and Reasoning(MMMU)ベンチマークの堅牢なバージョンであるMMMU-Proを紹介します。MMMU-Proは、MMMUに基づいた3段階のプロセスを通じて、多様なモデルの真の理解力と推論能力を厳密に評価します:(1)テキストのみで回答可能な質問を除外し、(2)候補オプションを拡張し、(3)画像内に質問が埋め込まれるビジョンのみの入力設定を導入します。この設定は、AIに真に「見る」ことと「読む」ことを同時に行うことを求め、視覚情報とテキスト情報をシームレスに統合するという基本的な人間の認知スキルをテストします。結果は、モデルのパフォーマンスがMMMU-Proで16.8%から26.9%の範囲でMMMUよりも大幅に低いことを示しています。OCRプロンプトとChain of Thought(CoT)推論の影響を探究し、OCRプロンプトはほとんど影響を与えない一方、CoTは一般的にパフォーマンスを向上させることがわかりました。MMMU-Proは、現実世界のシナリオを密接に模倣し、将来のマルチモーダルAIの研究に貴重な方向性を提供する、より厳密な評価ツールを提供します。
最近の研究では、高品質なデータが言語モデルの効果的な事前学習に不可欠であることがますます示されています。ただし、「高品質」という厳密な定義は未だに未開拓の領域です。コード領域に焦点を当て、我々はArctic-SnowCoder-1.3Bを紹介します。このモデルは、3段階の段階的に洗練されたデータを通じて555Bのトークンで事前学習された、データ効率の高いベースコードモデルです。具体的には、(1) 500Bの標準品質のコードトークンを基本的なフィルタリング、重複排除、および汚染除去を経て前処理し、一般的な事前学習を行います。(2) 第一段階から選択された50Bの高品質トークンを、BERTスタイルの品質注釈付けツールによって継続的に事前学習し、高品質のコードファイルからの正例を使用し、MagicoderおよびStarCoder2-Instructからの指示データを使用します。(3) 第二段階のデータをシードとして使用し、Llama-3.1-70Bによって生成された5Bの合成データを用いて強化事前学習を行います。これは、事前学習のためにMagicoderアプローチを適応したものです。限られたデータセットで訓練されているにもかかわらず、Arctic-SnowCoderは、実用的で難解なプログラミングタスクに焦点を当てたBigCodeBenchで、1Tトークン以下で訓練された同様のサイズのモデルを上回り、Phi-1.5-1.3Bを36%上回る最先端の性能を達成しています。すべての評価ベンチマークにおいて、Arctic-SnowCoder-1.3Bは、1Tトークンで事前学習されたStarCoderBase-3Bを凌駕しています。さらに、3兆トークン以上で事前学習された主要な小規模ベースコードモデルとの性能を匹敵しています。例えば、Arctic-SnowCoder-1.3Bは、HumanEval+で、関数レベルのコード生成を評価するベンチマークで、3.3Tトークン以上で事前学習されたStarCoder2-3Bを上回り、BigCodeBenchでも競争力を維持しています。我々の評価は、Arctic-SnowCoderのさまざまな設計選択を正当化する包括的な分析を提示しています。最も重要なことは、高品質なデータの鍵は、下流アプリケーションの分布と整合していることです。
アシストロボットの操作フレームワークを提案します。このフレームワークは、2つの基本的な課題に焦点を当てています。第一に、大規模モデルを効率的に下流のシーンアフォーダンス理解タスクに適応させること、特に日常生活シナリオにおいて、人間を含むマルチタスクデータを収集することが困難である場合。第二に、視覚アフォーダンスモデルを基盤としてロボットの軌道を効果的に学習すること。最初の課題には、パラメータ効率のプロンプト調整手法を用いて取り組み、凍結されたビジョンモデルに学習可能なテキストプロンプトを追加して、マルチタスクシナリオにおける操作可能性を予測します。次に、アフォーダンスに誘導されたロボットの軌道を学習するための教師付きフローマッチング手法を提案します。フローマッチングは、ロボットの視覚運動ポリシーを、ランダムなウェイポイントを所望のロボット軌道に流す条件付きプロセスとして表現します。最後に、日常生活活動全般にわたる10のタスクを含む実世界のデータセットを導入して、提案されたフレームワークをテストします。詳細な評価により、言語プロンプターを用いた操作アフォーダンスの学習において提案されたプロンプト調整手法が競争力のあるパフォーマンスを達成し、他のファインチューニングプロトコルを上回ることが示されました。単一のフローマッチングポリシーを用いたマルチタスクロボット軌道の学習は、他の行動クローニング手法よりも一貫して優れたパフォーマンスを示し、特にマルチモーダルなロボットアクション分布が与えられた場合に優れています。我々のフレームワークは、ロボット操作のためのアフォーダンスモデル学習と軌道生成をフローマッチングでシームレスに統合しています。
社会科学者は、大規模言語モデルが監督されたトレーニングなしで文書を注釈付けする能力、すなわちゼロショット学習として知られる能力を持つため、これらを迅速に採用しました。しかしながら、計算要件、コスト、そしてしばしば独自性のため、これらのモデルは複製とオープンサイエンスの基準としばしば矛盾しています。本論文では、政治文書のゼロショットおよびフューショット分類のためのPolitical DEBATE(DeBERTa Algorithm for Textual Entailment)言語モデルを紹介します。これらのモデルは、ゼロおよびフューショット分類において、最先端の大規模言語モデルと同等以上に優れているだけでなく、桁違いに効率的で完全にオープンソースです。これらのモデルを10〜25の文書の単純な無作為サンプルでトレーニングすることで、数百または数千の文書でトレーニングされた監督分類器や複雑なエンジニアリングプロンプトを持つ最先端の生成モデルを上回ることができます。さらに、これらのモデルをトレーニングするために使用されたPolNLIデータセットを公開します。これは、800以上の分類タスク全体で高精度のラベルを持つ20万以上の政治文書のコーパスです。
拡散ベースの音声変換(VC)技術、例えばVoiceGradのような技術は、音声品質と話者の類似性の観点から高いVC性能を持つために注目されています。しかしながら、マルチステップの逆拡散によって引き起こされる遅い推論という顕著な制限があります。そのため、私たちはFastVoiceGradを提案します。これは、イテレーションの数を数十から1に減らす新しい1ステップの拡散ベースのVCであり、マルチステップの拡散ベースのVCの高い性能を継承しながら推論速度を向上させます。我々は、生成的対立ネットワークと拡散モデルの能力を活用し、サンプリングにおける初期状態を再考することで、Adversarial Conditional Diffusion Distillation(ACDD)を用いてモデルを取得します。1回の任意から任意へのVCの評価は、FastVoiceGradが以前のマルチステップの拡散ベースのVCよりも優れたもしくは同等のVC性能を達成しつつ、推論速度を向上させることを示しています。オーディオサンプルは以下のリンクから入手可能です:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/。