翻訳付きの日次キュレーションされたAI研究論文
時空間的一貫性は、映像生成における重要な研究テーマである。質の高い生成映像セグメントは、プロットの妥当性と一貫性を保証すると同時に、視点の変化に伴うオブジェクトやシーンの視覚的一貫性を維持しなければならない。これまでの研究、特にオープンソースプロジェクトでは、時間的または空間的一貫性、あるいはそれらの基本的な組み合わせに主眼が置かれてきた。例えば、プロンプト後にカメラの動きの説明を追加するが、その動きの結果を制約しないといった手法が用いられてきた。しかし、カメラの動きによってシーンに新しいオブジェクトが導入されたり、既存のオブジェクトが消えたりする可能性があり、それによって先行する物語が重なり影響を受けることがある。特にカメラの動きが多い映像では、複数のプロット間の相互作用がますます複雑になる。本論文では、プロットの進行とカメラ技術の相乗効果、および先行する内容が後続の生成に及ぼす長期的な影響を考慮した、統合的な時空間的一貫性を導入し、検証する。我々の研究は、データセットの構築からモデルの開発までを網羅している。まず、動的なカメラモーションとオブジェクトのアクションを特徴とする1000万本の映像からなるDropletVideo-10Mデータセットを構築した。各映像には平均206語のキャプションが付与されており、様々なカメラの動きとプロットの展開が詳細に記述されている。その後、映像生成において時空間的一貫性を保持するのに優れたDropletVideoモデルを開発し、トレーニングした。DropletVideoデータセットとモデルはhttps://dropletx.github.ioで公開されている。
現実世界における身体性を持ったタスクで人間レベルの性能を達成する自律ロボットエージェントの構築は、ヒューマノイドロボット研究の究極の目標である。近年の進展により、Foundation Models(FMs)を用いた高次認知機能と、ヒューマノイドロボットの低次スキル開発において大きな進歩が見られた。しかし、これらのコンポーネントを直接組み合わせると、長期タスクにおけるエラーの累積や異なるモジュール間のレイテンシのばらつきにより、堅牢性と効率性が低下する場合が多い。本論文では、FMとモジュール型スキルライブラリを統合した階層型エージェントフレームワーク「Being-0」を提案する。FMは、指示の理解、タスク計画、推論などの高次認知タスクを担当し、スキルライブラリは安定した移動と器用な操作を提供する低次制御を担う。これらのレベル間のギャップを埋めるため、軽量な視覚言語モデル(VLM)を活用した新たな「Connector」モジュールを提案する。Connectorは、言語ベースの計画を実行可能なスキルコマンドに変換し、移動と操作を動的に調整することで、FMの身体性を強化し、タスクの成功率を向上させる。FMを除くすべてのコンポーネントを低コストのオンボード計算デバイスに展開可能なBeing-0は、器用なハンドとアクティブビジョンを備えたフルサイズのヒューマノイドロボット上で効率的なリアルタイム性能を実現する。大規模な屋内環境における広範な実験を通じて、Being-0が困難なナビゲーションと操作のサブタスクを必要とする複雑な長期タスクを解決する有効性が示された。詳細と動画はhttps://beingbeyond.github.io/being-0を参照されたい。
深度やキャニーエッジを条件とした画像生成手法など、画像を条件とした生成方法は、精密な画像合成において顕著な能力を発揮しています。しかし、既存のモデルは複数のインスタンス(または領域)の内容を正確に制御するのに依然として苦戦しています。FLUXや3DISといった最先端のモデルでさえ、インスタンス間の属性漏れといった課題に直面しており、ユーザー制御を制限しています。これらの課題に対処するため、我々はFLUXモデルを基盤としたトレーニング不要のアプローチであるDreamRendererを提案します。DreamRendererは、ユーザーがバウンディングボックスやマスクを通じて各インスタンスの内容を制御できるようにしつつ、全体の視覚的調和を保証します。我々は2つの主要な革新を提案します:1)ハードテキスト属性バインディングのためのブリッジ画像トークン。これは、テキストデータのみで事前学習されたT5テキスト埋め込みが、Joint Attention中に各インスタンスの正しい視覚属性を確実にバインドするために、複製された画像トークンをブリッジトークンとして使用します。2)重要な層にのみ適用されるハード画像属性バインディング。FLUXの分析を通じて、インスタンス属性レンダリングに責任を持つ重要な層を特定し、これらの層にのみハード画像属性バインディングを適用し、他の層ではソフトバインディングを使用します。このアプローチにより、画像品質を保ちつつ、精密な制御を実現します。COCO-POSおよびCOCO-MIGベンチマークでの評価により、DreamRendererはFLUXに比べてImage Success Ratioを17.7%向上させ、GLIGENや3DISのようなレイアウトから画像へのモデルの性能を最大26.8%向上させることが示されました。プロジェクトページ:https://limuloo.github.io/DreamRenderer/。
パーソナライズド画像生成は、ユーザー指定の概念を表現した画像を生成しつつ、柔軟な編集を可能にすることを目指しています。最近のトレーニング不要なアプローチは、トレーニングベースの手法よりも計算効率が高いものの、アイデンティティの保持、適用性、および拡散トランスフォーマー(DiT)との互換性に課題を抱えています。本論文では、DiTの未開拓の可能性を明らかにし、単にノイズ除去トークンを参照対象のトークンに置き換えるだけでゼロショットの対象再構成が可能であることを示します。このシンプルでありながら効果的な特徴注入技術により、パーソナライゼーションから画像編集まで多様なシナリオが実現可能となります。この観察に基づき、我々は「Personalize Anything」を提案します。これは、以下の2つの要素を通じてDiTにおけるパーソナライズド画像生成を実現するトレーニング不要なフレームワークです:1)早期段階での注入により対象の一貫性を強化し、後期段階での正則化により柔軟性を高めるタイムステップ適応型トークン置換、および2)構造的多様性を促進するパッチ摂動戦略。本手法は、レイアウト誘導生成、複数対象のパーソナライゼーション、マスク制御編集をシームレスにサポートします。評価では、アイデンティティ保持と汎用性において最先端の性能を実証しています。本研究は、DiTに対する新たな洞察を確立するとともに、効率的なパーソナライゼーションのための実用的なパラダイムを提供します。
社会的相互作用における推論と戦略的行動は、知性の特徴である。この形式の推論は、静的な設定における孤立した計画立案や推論タスク(例えば数学の問題解決)よりもはるかに高度である。本論文では、戦略的計画立案と社会的推論の知性を測定するために設計された新しいマルチドメイン評価であるStrategic Planning, Interaction, and Negotiation (SPIN-Bench)を紹介する。既存の多くのベンチマークが狭い範囲の計画立案や単一エージェントの推論に焦点を当てているのに対し、SPIN-Benchは古典的なPDDLタスク、競争型ボードゲーム、協力型カードゲーム、マルチエージェント交渉シナリオを一つの統一されたフレームワークに統合している。このフレームワークには、AIエージェントの推論と戦略的行動をテストするための多様な社会的設定をシミュレートし評価するためのベンチマークとアリーナが含まれている。我々は、行動空間、状態の複雑さ、相互作用するエージェントの数を体系的に変化させることで、成功が体系的な段階的決定だけでなく、他の(敵対的または協力的な)参加者の概念的推論にも依存する多様な社会的設定をシミュレートするSPIN-Benchを定式化した。我々の実験では、現代の大規模言語モデル(LLM)が基本的な事実検索や短期的な計画立案を比較的うまく処理する一方で、大規模な状態空間にわたる深いマルチホップ推論や不確実性下での社会的に適切な調整を必要とするタスクにおいて、重大なパフォーマンスのボトルネックに直面することが明らかになった。我々は、SPIN-Benchが堅牢なマルチエージェント計画立案、社会的推論、人間-AIチーム形成に関する将来の研究の触媒となることを期待している。
人間のような段階的なプロセスにおける連鎖的思考(CoT)推論の利点をマルチモーダルな文脈に拡張することで、マルチモーダルCoT(MCoT)推論は最近、特にマルチモーダル大規模言語モデル(MLLMs)との統合において、重要な研究注目を集めています。既存のMCoT研究では、画像、動画、音声、オーディオ、3D、構造化データといった異なるモダリティに特有の課題に対処するため、様々な方法論や革新的な推論パラダイムが設計され、ロボティクス、医療、自動運転、マルチモーダル生成などの応用分野で広範な成功を収めています。しかし、MCoTは依然として独自の課題と機会を提示しており、この分野の持続的な発展を確保するためにはさらなる焦点が必要です。残念ながら、この領域に関する最新のレビューは不足しています。このギャップを埋めるため、我々はMCoT推論に関する初の体系的な調査を提示し、関連する基礎概念と定義を明らかにします。様々な応用シナリオにわたる多角的な視点から、現在の方法論の包括的な分類と詳細な分析を提供します。さらに、既存の課題と将来の研究方向性についての洞察を示し、マルチモーダルAGI(人工汎用知能)に向けたイノベーションを促進することを目指します。
我々は新しい設定「Edit Transfer」を導入する。これは、モデルが単一のソース-ターゲット例から変換を学習し、それを新しいクエリ画像に適用するものである。テキストベースの手法はテキストプロンプトを通じた意味的編集に優れているが、正確な幾何学的詳細(例えば、ポーズや視点の変化)には苦戦することが多い。一方、参照ベースの編集は通常、スタイルや外観に焦点を当てており、非剛体変換には対応できない。ソース-ターゲットペアから編集変換を明示的に学習することで、Edit Transferはテキストのみに依存する手法や外観中心の参照手法の限界を緩和する。大規模言語モデルにおけるインコンテキスト学習に着想を得て、我々はDiTベースのテキスト-to-画像モデルを基盤とした視覚的関係インコンテキスト学習パラダイムを提案する。編集された例とクエリ画像を統一された4パネルの合成画像に配置し、軽量なLoRAファインチューニングを適用して最小限の例から複雑な空間変換を捉える。わずか42のトレーニングサンプルを使用しているにもかかわらず、Edit Transferは多様な非剛体シナリオにおいて最先端のTIEおよびRIE手法を大幅に上回り、少数ショットの視覚的関係学習の有効性を実証している。
最近の研究では、高品質な連鎖思考推論データを用いた教師ありファインチューニングによってMLLM(マルチモーダル大規模言語モデル)の推論能力を向上させるのが一般的である。しかし、このアプローチでは、モデルが成功した推論パスを単に模倣するだけで、誤った推論パスを理解することがない場合が多い。本研究では、MLLMの推論能力を、肯定的な推論パスを受動的に模倣する以上のレベルに引き上げることを目指す。この目的のために、Step-wise Group Relative Policy Optimization(StepGRPO)という新しいオンライン強化学習フレームワークを設計した。StepGRPOは、シンプルで効果的かつ密なステップごとの報酬を通じて、MLLMが自己改善し推論能力を向上させることを可能にする。具体的には、StepGRPOは2つの新しいルールベースの推論報酬を導入する:Step-wise Reasoning Accuracy Reward(StepRAR)とStep-wise Reasoning Validity Reward(StepRVR)である。StepRARは、ソフトキーステップマッチング技術を用いて、必要な中間推論ステップを含む推論パスを報酬する。一方、StepRVRは、推論の完全性と論理的一貫性を評価する戦略を通じて、構造化され論理的に整合性のある推論プロセスに従う推論パスを報酬する。提案するStepGRPOを用いて、段階的な推論において優れた能力を持つMLLMシリーズであるR1-VLを紹介する。8つのベンチマークでの広範な実験により、本手法の優位性が実証された。
要素レベルの視覚的編集はデジタルコンテンツ制作において不可欠ですが、現在の拡散モデルベースの手法は従来のツールに比べて精度と柔軟性に欠けています。本研究では、確率的なブロブベース表現を用いて要素レベルの生成と編集を統合するフレームワーク、BlobCtrlを提案します。ブロブを視覚的プリミティブとして採用することで、空間的位置、意味的コンテンツ、識別情報を効果的に分離・表現し、精密な要素レベルの操作を可能にします。主な貢献は以下の通りです:1) 前景と背景のシームレスな統合のための階層的特徴融合を備えたデュアルブランチ拡散アーキテクチャ、2) データ拡張とスコア関数を調整した自己教師あり学習パラダイム、3) 忠実度と多様性のバランスを取るための制御可能なドロップアウト戦略。さらなる研究を支援するため、大規模な学習用のBlobDataと体系的な評価用のBlobBenchを導入しました。実験結果から、BlobCtrlは計算効率を維持しつつ様々な要素レベルの編集タスクで優れた性能を発揮し、精密かつ柔軟な視覚コンテンツ制作の実用的なソリューションを提供することが示されました。プロジェクトページ:https://liyaowei-stu.github.io/project/BlobCtrl/
科学研究では、マルチモーダルデータに対する高度な推論が求められ、特に生物学分野でこの課題が顕著です。近年、AI支援研究のためのマルチモーダル大規模言語モデル(MLLMs)が進歩しているにもかかわらず、既存のマルチモーダル推論ベンチマークは大学レベルの難易度までしか対象としておらず、研究レベルのベンチマークは低次元の知覚に重点を置いており、科学的発見に必要な複雑なマルチモーダル推論には及んでいません。このギャップを埋めるため、私たちはMicroVQAを導入しました。これは、研究ワークフローにおいて重要な3つの推論能力(専門的な画像理解、仮説生成、実験提案)を評価するために設計された視覚的質問応答(VQA)ベンチマークです。MicroVQAは、生物学の専門家によって多様な顕微鏡モダリティにわたってキュレーションされた1,042の多肢選択問題(MCQs)で構成されており、VQAサンプルが実際の科学実践を反映するようになっています。ベンチマークの構築において、標準的なMCQ生成方法では言語的ショートカットが生じることがわかり、新しい2段階パイプラインを動機付けました。最適化されたLLMプロンプトが質問-回答ペアをMCQsに構造化し、その後、エージェントベースの「RefineBot」がショートカットを除去するためにそれらを更新します。最先端のMLLMsでのベンチマーク結果は、ピーク性能が53%であり、より小さいLLMsを持つモデルはトップモデルにわずかに劣るだけで、言語ベースの推論はマルチモーダル推論よりも容易であることを示唆しています。また、科学記事を用いたチューニングが性能を向上させることがわかりました。チェーン・オブ・ソートレスポンスの専門家分析によると、知覚エラーが最も頻繁に発生し、次に知識エラー、そして過剰一般化エラーが続きます。これらの洞察は、マルチモーダル科学的推論における課題を浮き彫りにし、MicroVQAがAI駆動の生物医学研究を進めるための貴重なリソースであることを示しています。MicroVQAはhttps://huggingface.co/datasets/jmhb/microvqaで利用可能で、プロジェクトページはhttps://jmhb0.github.io/microvqaにあります。
3D再構成技術の急速な発展に伴い、4D再構成の研究も進展しており、既存の4D再構成手法は高品質な4Dシーンを生成することが可能です。しかし、マルチビュービデオデータの取得が困難であるため、現在の4D再構成ベンチマークは主にダンスなどの限られたシナリオ内での動作を表示するものに留まっています。実際のシナリオでは、多くのシーンが広範囲の空間移動を伴うため、既存の4D再構成データセットの限界が顕著になっています。さらに、既存の4D再構成手法は変形フィールドに依存して3Dオブジェクトの動態を推定していますが、変形フィールドは広範囲の空間移動に対応するのが難しく、広範囲の空間移動を伴う高品質な4Dシーン再構成を実現する能力が制限されています。本論文では、オブジェクトの空間移動が顕著な4Dシーン再構成に焦点を当て、新たな4D再構成ベンチマークであるWideRange4Dを提案します。このベンチマークは、大きな空間変動を伴う豊富な4Dシーンデータを含んでおり、4D生成手法の生成能力をより包括的に評価することが可能です。さらに、様々な複雑な4Dシーン再構成タスクにおいて安定した高品質な4D結果を生成する新しい4D再構成手法、Progress4Dを導入します。WideRange4Dにおいて定量的および定性的な比較実験を行い、Progress4Dが既存の最先端の4D再構成手法を凌駕することを示します。プロジェクト: https://github.com/Gen-Verse/WideRange4D
動画はその独特な時間的次元を有しており、回答が視覚的で解釈可能な証拠に直接結びつく、正確な根拠に基づいた理解を必要とします。大規模言語モデルにおける推論能力の著しい進展にもかかわらず、特に動画を対象としたマルチモーダル推論は未開拓の領域です。本研究では、時間的根拠に基づく動画理解のために設計された新たな動画-言語エージェント、VideoMindを紹介します。VideoMindは以下の2つの主要な革新を組み込んでいます:(i) 動画の時間的推論に不可欠な能力を特定し、役割ベースのエージェントワークフローを開発しました。これには、異なる役割を調整するプランナー、時間的ローカライゼーションを行うグラウンダー、時間間隔の正確性を評価する検証者、そして質問応答を行うアンサラーが含まれます。(ii) これらの多様な役割を効率的に統合するために、軽量なLoRAアダプターを介したシームレスな役割切り替えを可能にする新たなChain-of-LoRA戦略を提案し、複数モデルのオーバーヘッドを回避することで効率性と柔軟性のバランスを実現しました。14の公開ベンチマークでの広範な実験により、当エージェントが、根拠に基づく動画質問応答3種、動画時間的ローカライゼーション6種、一般的な動画質問応答5種を含む多様な動画理解タスクにおいて最先端の性能を達成し、動画エージェントおよび長時間的推論の進展における有効性が実証されました。
報酬モデルは現代の自然言語処理において不可欠な存在となり、スケーラブルなテキスト評価ツールとしてだけでなく、多くのアライメント手法や推論時アルゴリズムにおいても重要な役割を果たしています。しかし、最近の報酬モデルは標準ベンチマークでの性能向上が見られるものの、その一部は過学習効果によるものであり、真の能力を正しく理解する上で混乱を招く可能性があります。本研究では、報酬モデルの堅牢性とそのような過学習の程度を精査します。私たちは、意味や順位を保持した方法で報酬モデルの入力を体系的に変換する**reWordBench**を構築しました。その結果、最先端の報酬モデルでさえ、わずかな入力変換によって大幅な性能低下を引き起こし、時にはランダム予測を下回る精度にまで落ち込むことが明らかになり、脆弱性が示唆されました。報酬モデルの堅牢性を向上させるため、私たちはパラフレーズに対して類似のスコアを割り当てるよう明示的に訓練することを提案し、このアプローチが他の種類の変換に対しても堅牢性を向上させることを発見しました。例えば、私たちの堅牢な報酬モデルは、RewardBenchのChat Hardサブセットにおいて、そのような性能低下を約半分に削減します。さらに、アライメントに使用した場合、私たちの堅牢な報酬モデルはより優れた有用性を示し、高品質な出力を導き、標準的に訓練されたRMに対して最大59%の事例で勝利しました。
人間はビデオの推論を時空間的な順序に従った論理で処理します。まず関連するフレームを特定し(「いつ」)、次に主要なオブジェクト間の空間的関係を分析し(「どこ」)、最後にこれらの関係を活用して推論を行います(「何」)。しかし、ビデオ大規模言語モデル(Video-LLMs)もビデオにおいて「時空間的な順序に従った論理で推論」できるのでしょうか?既存のVideo-LLMベンチマークは主にオブジェクトの存在を評価することに焦点を当てており、関係的推論を軽視しています。その結果、モデルがビデオ内のオブジェクト間の相互作用(アクション/イベント)を真に理解しているのか、それとも事前学習された共起の「記憶」をバイアスとして答えを生成しているのかを測ることが困難です。本研究では、これらの欠点を解決するために、ビデオ時空間推論(V-STaR)ベンチマークを提案します。鍵となるアイデアは、ビデオ理解を逆時空間推論(RSTR)タスクに分解し、どのオブジェクトが存在するか、いつイベントが発生するか、どこに位置するかを同時に評価しながら、背後にある連鎖的思考(CoT)の論理を捉えることです。この評価を支援するため、Video-LLMsの時空間推論プロセスを引き出すデータセットを構築しました。これには、GPT-4を活用した半自動化パイプラインによって生成された粗から細かいCoT質問が含まれており、人間の認知を模倣する明示的な推論チェーンが埋め込まれています。14のVideo-LLMsによるV-STaRでの実験結果から、現在のVideo-LLMsと堅牢で一貫した時空間推論の必要性との間に大きなギャップがあることが明らかになりました。
人間の指示に基づいて散らかった箱からロボット把持を行うことは、自由形式の言語のニュアンスと物体間の空間的関係の両方を理解する必要があるため、非常に困難な課題です。GPT-4oのようなウェブスケールのデータで訓練された視覚言語モデル(VLMs)は、テキストと画像の両方にわたる優れた推論能力を示しています。しかし、これらのモデルをゼロショット設定でこのタスクに使用できるのでしょうか?また、その限界は何でしょうか?本論文では、自由形式言語に基づくロボット把持タスクを通じてこれらの研究課題を探り、事前訓練されたVLMsの世界知識を活用して人間の指示と物体の空間配置を推論する新しい手法、FreeGraspを提案します。本手法では、すべての物体をキーポイントとして検出し、これらのキーポイントを使用して画像に注釈を付け、GPT-4oのゼロショット空間推論を容易にすることを目指しています。これにより、要求された物体が直接把持可能か、または他の物体を先に把持して取り除く必要があるかを判断できます。このタスクに特化した既存のデータセットがないため、MetaGraspNetV2データセットを人間が注釈を付けた指示とグラウンドトゥルースの把持シーケンスで拡張した合成データセットFreeGraspDataを導入します。FreeGraspDataを用いた詳細な分析と、グリッパーを装備したロボットアームによる実世界での検証を行い、把持推論と実行において最先端の性能を実証します。プロジェクトウェブサイト: https://tev-fbk.github.io/FreeGrasp/。
複雑なテキストプロンプトや人間の好みに生成画像を適合させることは、AI生成コンテンツ(AIGC)における中心的な課題です。報酬強化型拡散蒸留が、テキストから画像へのモデルの制御性と忠実度を向上させる有望なアプローチとして登場する中で、私たちは根本的なパラダイムシフトを確認しました。条件がより具体的になり、報酬信号が強くなるにつれて、報酬自体が生成における支配的な力となります。一方で、拡散損失は過剰に高価な正則化の形態として機能します。私たちの仮説を徹底的に検証するために、正則化された報酬最大化による新しい条件付き生成アプローチであるR0を導入します。R0は、トリッキーな拡散蒸留損失に依存する代わりに、画像生成をデータ空間における最適化問題として扱う新しい視点を提案します。これは、高い構成的報酬を持つ有効な画像を探索することを目的としています。生成器のパラメータ化と適切な正則化技術の革新的な設計により、R0を使用して最先端の少ステップテキストから画像生成モデルを大規模にトレーニングします。私たちの結果は、複雑な条件のシナリオにおいて報酬が支配的な役割を果たすことを示すことで、拡散事後トレーニングと条件付き生成に関する従来の知恵に挑戦します。私たちの発見が、AIGCの広範な分野における人間中心および報酬中心の生成パラダイムのさらなる研究に貢献することを願っています。コードはhttps://github.com/Luo-Yihong/R0で利用可能です。
ビデオインペインティングは、ビデオ内の局所領域を修正し、空間的および時間的な一貫性を保つことを含みます。既存の手法の多くは、主にシーン補完(つまり、欠落領域の埋め戻し)に焦点を当てており、新しいオブジェクトを制御可能な方法でシーンに挿入する能力を欠いています。幸いなことに、最近のテキストからビデオ(T2V)拡散モデルの進展により、テキストガイド付きのビデオインペインティングが可能になりました。しかし、T2Vモデルを直接インペインティングに適用することは、補完と挿入タスクを統合する点で限界があり、入力の制御性が低く、長いビデオに対応するのが難しいため、その適用性と柔軟性が制限されています。これらの課題に対処するため、我々はMTV-Inpaintを提案します。これは、従来のシーン補完と新しいオブジェクト挿入タスクの両方を扱える統一されたマルチタスクビデオインペインティングフレームワークです。これらの異なるタスクを統合するために、T2V拡散U-Net内にデュアルブランチ空間注意メカニズムを設計し、シーン補完とオブジェクト挿入を単一のフレームワーク内でシームレスに統合します。テキストガイドに加えて、MTV-Inpaintは、提案された画像からビデオ(I2V)インペインティングモードを通じて、さまざまな画像インペインティングモデルを統合することで、マルチモーダル制御をサポートします。さらに、キーフレームインペインティングと中間フレーム伝播を組み合わせた2段階パイプラインを提案し、MTV-Inpaintが数百フレームの長いビデオを効果的に処理できるようにします。広範な実験により、MTV-Inpaintがシーン補完とオブジェクト挿入タスクの両方で最先端の性能を達成することが示されています。さらに、マルチモーダルインペインティング、オブジェクト編集、削除、画像オブジェクトブラシ、長いビデオの処理能力など、派生アプリケーションでの汎用性も実証されています。プロジェクトページ: https://mtv-inpaint.github.io/.
映像から音声を合成するビデオ・ツー・オーディオ技術は、視覚コンテンツに同期した音声を生成することで、映画やインタラクティブメディアにおける視聴者の没入感と物語の一貫性を大幅に向上させます。しかし、長編コンテンツのビデオ・ツー・オーディオ吹き替えは、動的な意味の変化、時間的なずれ、専用データセットの欠如といった課題により、未解決のままです。既存の手法は短い動画では優れた性能を発揮しますが、映画などの長いシナリオでは、断片的な合成やシーン間の一貫性の欠如により性能が低下します。本研究では、専門的な吹き替えワークフローを模倣する新たなマルチエージェントフレームワーク「LVAS-Agent」を提案します。このアプローチでは、長編ビデオの合成を、シーン分割、台本生成、サウンドデザイン、音声合成の4つのステップに分解します。中心的な革新点として、シーンや台本を洗練するためのディスカッション・修正メカニズムと、時間的・意味的な整合性を確保するための生成・検索ループを導入しています。体系的な評価を可能にするため、多様なシナリオを網羅した207本のプロフェッショナルキュレーション長編ビデオを含む初のベンチマーク「LVAS-Bench」を構築しました。実験結果は、ベースライン手法を上回る優れた視聴覚整合性を示しています。プロジェクトページ: https://lvas-agent.github.io
多くの場合、注釈者グループとエンドユーザーグループのニーズや視覚能力は異なります。特に、視覚障害者や弱視者(BLV)向けの詳細な図表説明を生成することは、そのような難しい領域の一つです。視覚を持つ注釈者は視覚情報を容易に説明できますが、既存の研究では、彼らによる直接的な生成はコストがかかり、バイアスが生じやすく、BLVの基準から見るとやや不十分であることが示されています。本研究では、視覚を持つ個人に、視覚言語モデル(VLM)がマルチパス推論を通じて潜在的な監督を受けて生成した図表説明を評価してもらうことを求めました。この視覚者による評価は、自身がBLVであり視覚障害者を教える専門教育者にとって有効かつ有用であることが証明されました。私たちは、5,000の図表と137,000のサンプルをカバーする図表説明データセット「Sightation」を公開し、完成、選好、検索、質問応答、推論トレーニングの目的で利用できることを示しました。さらに、これらのデータセットが様々な下流タスクでのファインチューニングに有効であることを実証しました。
ビデオ基盤モデル(VFMs)は最近、物理的なAIシステムを訓練し、創造的な視覚体験を開発するために現実世界をシミュレートするために使用されています。しかし、高品質なビデオを生成できる大規模で高品質なVFMsを訓練するには、大きな課題があります。本論文では、NVIDIA NeMoを用いたスケーラブルでオープンソースのVFM訓練パイプラインを提案し、加速されたビデオデータセットのキュレーション、マルチモーダルデータのローディング、並列化されたビデオ拡散モデルの訓練と推論を提供します。また、効率的なVFM訓練と推論のためのベストプラクティスを強調した包括的なパフォーマンス分析も提供します。
様々な自己回帰型ビデオ拡散モデル(ARVDM)が、現実的な長尺ビデオの生成において顕著な成功を収めています。しかし、これらのモデルに関する理論的分析は依然として不足しています。本研究では、これらのモデルの理論的基盤を構築し、その洞察を活用して既存モデルの性能を向上させます。まず、既存のほとんどの手法を包含する統一フレームワークであるMeta-ARVDMを開発します。Meta-ARVDMを用いて、Meta-ARVDMによって生成されたビデオと真のビデオとの間のKLダイバージェンスを分析します。この分析により、ARVDMに内在する2つの重要な現象――誤差蓄積とメモリボトルネック――を明らかにします。情報理論的な不可能性の結果を導出することで、メモリボトルネック現象が避けられないことを示します。メモリボトルネックを緩和するために、より多くの過去フレームを明示的に利用する様々なネットワーク構造を設計します。また、フレームを圧縮することで、メモリボトルネックの緩和と推論効率の間のトレードオフを大幅に改善します。DMLabとMinecraftでの実験結果は、我々の手法の有効性を裏付けています。さらに、異なる手法間での誤差蓄積とメモリボトルネックのパレートフロンティアを実験的に示します。
ステレオ画像は、拡張現実(XR)デバイス、自動運転、ロボティクスなど、数多くのアプリケーションにおいて基本的な要素です。しかし、高品質なステレオ画像の取得は、デュアルカメラセットアップの精密なキャリブレーション要件や、正確で密な視差マップの取得の複雑さから、依然として困難な課題です。既存のステレオ画像生成手法は、視覚品質を重視するか、マッチングのための幾何学的精度を重視するかのいずれかに焦点を当てており、両方を同時に実現することはできませんでした。本論文では、このギャップを埋めるために、拡散モデルに基づくアプローチであるGenStereoを提案します。この手法には、主に2つの革新が含まれています。(1) 拡散プロセスを視差認識座標埋め込みとワープされた入力画像に条件付けることで、従来の手法よりも正確なステレオアラインメントを実現し、(2) 拡散生成画像とワープ画像をインテリジェントに結合する適応的融合メカニズムにより、リアリズムと視差の一貫性の両方を向上させます。11の多様なステレオデータセットを用いた大規模なトレーニングを通じて、GenStereoは強力な汎化能力を示しています。GenStereoは、ステレオ画像生成と教師なしステレオマッチングタスクの両方において、最先端の性能を達成します。本フレームワークは、複雑なハードウェアセットアップを必要とせず、高品質なステレオ画像生成を可能にするため、実世界のアプリケーションと教師なし学習シナリオの両方において価値があります。プロジェクトページはhttps://qjizhi.github.io/genstereoで公開されています。
近年の研究では、大規模言語モデルの不確実性を定量化し、モデルの制御やユーザーの信頼調整を促進することが試みられています。これまでの研究では、理論的に裏付けられた不確実性の尺度や、モデルの平均的な表層的な振る舞いを反映する尺度に焦点が当てられてきました。本研究では、人間の集団レベルの不確実性と相関する尺度を特定するため、さまざまな不確実性尺度を調査します。その結果、ベイジアン尺度とエントロピー尺度の一種であるトップkエントロピーが、モデルサイズの関数として人間の振る舞いと一致する傾向があることがわかりました。また、いくつかの強力な尺度はモデルサイズが大きくなるにつれて人間との類似性が低下するものの、重回帰分析によって、複数の不確実性尺度を組み合わせることで、サイズ依存性を低減しつつ人間との整合性を維持できることが明らかになりました。
従来のLLMに対する敵対的摂動生成のためのホワイトボックス手法は、通常、ターゲットモデルからの勾配計算のみに依存し、攻撃の成功または失敗の原因となる内部メカニズムを無視していました。一方、これらの内部メカニズムを分析する解釈可能性の研究は、実行時介入を超えた実用的な応用に欠けていました。私たちはこのギャップを埋めるために、メカニズム的解釈可能性技術を活用して実用的な敵対的入力を生成する新しいホワイトボックス手法を提案します。具体的には、まずモデルの拒否メカニズムをトリガーしない特徴ベクトルの集合である受容サブスペースを特定し、次に勾配ベースの最適化を使用して拒否サブスペースから受容サブスペースへの埋め込みをリルートすることで、効果的にジャイルブレイクを達成します。このターゲットを絞ったアプローチにより、計算コストが大幅に削減され、Gemma2、Llama3.2、Qwen2.5などの最先端モデルにおいて、80-95\%の攻撃成功率を数分または数秒で達成します。これは、既存の技術がしばしば失敗するか、数時間の計算を必要とするのと対照的です。私たちは、このアプローチが攻撃研究と防御開発の両方において新たな方向性を開くものと信じています。さらに、他の手法が効率的でない場合にメカニズム的解釈可能性の実用的な応用を示しており、その有用性を強調しています。コードと生成されたデータセットはhttps://github.com/Sckathach/subspace-reroutingで公開されています。
心理学の分野では、人間が視覚刺激をラベル付けする際に用いる基本的なカテゴリー化のレベルが長年認識されており、これは1976年にロッシュによって提唱された概念である。このカテゴリー化のレベルは、最も頻繁に使用され、情報密度が高く、プライミングを用いた視覚言語タスクにおいて人間を支援することが明らかになっている。本稿では、最近公開された2つのオープンソースの視覚言語モデル(VLM)における基本的なカテゴリー化を調査する。本論文は、Llama 3.2 Vision Instruct (11B) と Molmo 7B-D の両方が、人間の行動と一致する基本的なカテゴリー化を好むことを示している。さらに、これらのモデルの選好は、生物と非生物の基本的レベル効果や、よく確立された専門家の基本的レベルシフトといった、微妙な人間の行動とも一致しており、VLMが訓練に用いた人間のデータから認知的カテゴリー化行動を獲得していることをさらに示唆している。
近年、SoRAやKlingなどのテキストからビデオを生成する(T2V)技術の急速な進展により、世界シミュレータの構築に大きな可能性が示されています。しかし、現在のT2Vモデルは抽象的な物理法則を理解し、物理法則に従ったビデオを生成することに苦戦しています。この課題は主に、抽象的な物理法則と生成モデルの間に存在する大きなギャップにより、物理情報に関する明確なガイダンスが欠如していることに起因しています。この問題に対処するため、私たちはWorld Simulator Assistant(WISA)を導入しました。WISAは、物理法則を分解し、T2Vモデルに組み込むための効果的なフレームワークです。具体的には、WISAは物理法則をテキストによる物理記述、定性的な物理カテゴリ、および定量的な物理特性に分解します。これらの物理属性を生成プロセスに効果的に埋め込むために、WISAはMixture-of-Physical-Experts Attention(MoPA)やPhysical Classifierなどの重要な設計を組み込んでおり、モデルの物理認識を強化します。さらに、既存のデータセットの多くは、物理現象が弱く表現されているか、複数の同時発生プロセスと絡み合っているビデオを特徴としており、明示的な物理法則を学ぶための専用リソースとしての適性が限られています。私たちは、定性的な物理カテゴリに基づいて収集された新しいビデオデータセット、WISA-32Kを提案します。このデータセットは、動力学、熱力学、光学の3つの物理領域にわたる17の物理法則を表す32,000のビデオで構成されています。実験結果は、WISAがT2Vモデルの現実世界の物理法則との互換性を効果的に向上させ、VideoPhyベンチマークで大幅な改善を達成できることを示しています。WISAとWISA-32Kの視覚的な展示は、https://360cvgroup.github.io/WISA/でご覧いただけます。