翻訳付きの日次キュレーションされたAI研究論文
DeepSeek-V3.2を紹介します。本モデルは、高い計算効率と優れた推論能力・エージェント性能を両立させています。DeepSeek-V3.2の主要な技術的ブレークスルーは以下の通りです: (1) **DeepSeek Sparse Attention (DSA)**:長文コンテキストにおけるモデル性能を維持しつつ計算量を大幅に削減する、効率的な注意機構であるDSAを導入しました。 (2) **スケーラブルな強化学習フレームワーク**:堅牢な強化学習プロトコルの実装とポストトレーニング計算のスケーリングにより、DeepSeek-V3.2はGPT-5に匹敵する性能を発揮します。特に高計算リソース版のDeepSeek-V3.2-SpecialeはGPT-5を上回り、Gemini-3.0-Proと同等の推論能力を示し、2025年の国際数学オリンピック(IMO)および国際情報オリンピック(IOI)で金メダル性能を達成しました。 (3) **大規模エージェントタスク合成パイプライン**:推論能力をツール利用シナリオに統合するため、体系的に大規模な訓練データを生成する新規合成パイプラインを開発しました。この方法論により、スケーラブルなエージェント的ポストトレーニングが可能となり、複雑な対話環境における汎化性能と指示追従の堅牢性が大幅に向上しています。
大規模言語モデルは強力なジェネラリストであるものの、Humanity's Last Exam (HLE) のような深遠で複雑な問題の解決は、概念的にも計算量的にも依然として困難な課題である。本論文では、他のモデルや多様なツールを管理する小型のオーケストレーターが、知性の上限を押し上げるとともに、困難なエージェント課題の解決効率を向上させうることを示す。我々は、インテリジェントツールを調整する小型オーケストレーターを訓練する手法「ToolOrchestra」を提案する。ToolOrchestraは、結果認識・効率認識・ユーザー選好認識の報酬を用いた強化学習を明示的に採用する。本手法により開発した80億パラメータモデル「Orchestrator」は、従来のツール利用エージェントよりも低コストで高精度な性能を発揮し、クエリに応じたツール選択においてユーザー選好との整合性を実現した。HLEでは37.1%のスコアを達成し、GPT-5(35.1%)を性能で上回りつつ、計算効率は2.5倍に向上した。tau2-BenchとFRAMESでは、GPT-5を大幅に上回る性能を、コスト約30%で達成した。詳細な分析により、Orchestratorが複数指標において性能とコストの最適なトレードオフを実現し、未見のツールに対しても頑健に汎化することを確認した。これらの結果は、多様なツールを軽量なオーケストレーションモデルで構成することが、既存手法よりも効率的かつ効果的であることを示し、実用的でスケーラブルなツール拡張推論システムへの道を開くものである。
現在の動画生成技術は単一ショットのクリップ生成には優れているものの、複数ショットによる物語性のある動画生成には課題を抱えています。これには、柔軟なショット配置、一貫したナラティブ、テキストプロンプトを超えた制御性が要求されます。これらの課題に取り組むため、我々は高度に制御可能な複数ショット動画生成フレームワーク「MultiShotMaster」を提案します。事前学習済み単一ショットモデルを拡張し、2つの新しいRoPE変種を統合しました。第一に、ショット遷移時に明示的な位相シフトを適用する「マルチショットナラティブRoPE」により、時間的な物語の順序を保ちつつ柔軟なショット配置を実現します。第二に、参照トークンとグラウンディング信号を組み込む「時空間位置認識RoPE」を設計し、時空間に基づいた参照注入を可能にします。さらにデータ不足を克服するため、複数ショット動画・キャプション・クロスショットグラウンディング信号・参照画像を抽出する自動データ注釈パイプラインを構築しました。本フレームワークは構造的な特性を活かし、テキスト駆動のショット間一貫性、モーション制御付きカスタム被写体、背景駆動のカスタムシーンを特徴とする複数ショット動画生成を実現します。ショット数と継続時間は柔軟に設定可能です。大規模な実験により、本フレームワークの優れた性能と卓越した制御性が実証されました。
本論文では、ゼロショット視覚ナビゲーションのためのデュアルスケールフレームワーク「MG-Nav(Memory-Guided Navigation)」を提案する。本手法は、大域的なメモリ誘導計画と局所的な幾何学拡張制御を統合する。中核となるのは、領域中心のコンパクトなメモリ構造「Sparse Spatial Memory Graph(SMG)」である。各ノードはマルチビューキーフレームとオブジェクト意味情報を集約し、外観と空間構造を捕捉するとともに視点多様性を保持する。大域レベルでは、エージェントをSMG上に位置同定し、画像-インスタンスハイブリッド検索を通じて目標条件付きノード経路を計画。これにより、長期的な誘導のための到達可能な経由点系列を生成する。局所レベルでは、ナビゲーション基盤ポリシーがこれらの経由点をポイントゴールモードで実行(障害物考慮制御付き)。最終ノードから視覚目標へ向かう際はイメージゴールモードに切り替える。視点整合性と目標認識をさらに強化するため、事前学習済みVGGTモデル上に構築した軽量幾何学モジュール「VGGT-adapter」を導入。観測と目標特徴を3D認識共有空間で整合させる。MG-Navは大域計画と局所制御を異なる周波数で動作させ、定期的な再位置同定により誤差を補正する。HM3D Instance-Image-GoalおよびMP3D Image-Goalベンチマークでの実験により、MG-Navが state-of-the-art のゼロショット性能を達成し、動的環境変化や未経験場景条件下でも頑健性を維持することを実証した。
本論文では、カメラ制御によるビデオ生成のための新しいend-to-end拡散モデルであるDualCamCtrlを提案する。近年の研究ではカメラ姿勢を光線ベースの条件として表現することでこの分野が進展しているが、十分なシーン理解と幾何学的認識を欠く場合が多い。DualCamCtrlはこの課題に特化し、カメラ整合性のあるRGBシーケンスと深度シーケンスを相互生成するデュアルブランチフレームワークを導入する。これら二つのモダリティを調和させるため、意味情報に導かれた相互強化手法でRGBと深度の融合を行うSemantic Guided Mutual Alignment(SIGMA)機構をさらに提案する。これらの設計により、DualCamCtrlは外観モデリングと幾何モデリングをより効果的に分離し、指定されたカメラ軌道に忠実なビデオ生成を実現する。加えて、ノイズ除去プロセスにおける深度とカメラ姿勢の影響を段階別に分析し、初期段階と後期段階がそれぞれ大域構造の形成と局所詳細の洗練において相補的役割を果たすことを明らかにする。大規模な実験により、DualCamCtrlが従来手法と比較してカメラ運動誤差を40%以上低減し、より一貫性のあるカメラ制御ビデオ生成を達成することを実証する。プロジェクトページ:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
AIの自己進化は、モデルが自身の学習経験から自律的に知識を獲得・洗練・内在化する超知能への道筋として長らく構想されてきた。しかし実際には、無指導の自己進化システムは、学習が進むにつれて急速に頭打ちになるか、場合によっては性能が劣化することが多い。これらの失敗は、概念ドリフト、多様性崩壊、誤進化といった問題から生じる。モデルが自身のバイアスを強化し、低エントロピー行動へ収束するためである。人間の監督への依存を最小限に抑えつつ、モデルが安定かつ制御可能な方法で自己進化できるようにするため、我々はR-Fewを提案する。これは、文脈内接地と混合訓練による軽量な人間監督を組み込んだ、指導付き自己対戦型のChallenger-Solverフレームワークである。各反復において、Challengerは人間がラベル付けた少数の事例を抽出して合成問題生成を導き、Solverは人間提供の事例と合成事例を、難易度に基づくオンラインカリキュラムの下で共同で学習する。数学および一般推論のベンチマークにおいて、R-Fewは一貫した反復的改善を達成する。例えば、Qwen3-8B-Baseは数学タスクでR-Zeroを3.0ポイント上回り、後者が20倍の人間データで学習しているにもかかわらず、General-Reasonerと同等の性能を発揮した。アブレーション研究は、接地されたChallenger訓練とカリキュラムに基づくSolver訓練の相補的貢献を確認し、さらなる分析は、R-Fewがドリフトを緩和し、より安定した制御可能な共進化的ダイナミクスをもたらすことを示している。
近年のマルチモーダルエージェントシステムは進歩を遂げているものの、既存のアプローチでは画像操作とWeb検索が分離された能力として扱われ、高コストな強化学習への依存が強く、実ツール実行トレースに基づいた計画性が欠如している。これらの課題を解決するため、我々はSkywork-R1V4を提案する。これは30B(実質3B)パラメータのマルチモーダルエージェントモデルであり、マルチモーダル計画、能動的画像操作(「画像を用いた思考」)、深層マルチモーダル検索、そして最も重要な、視覚操作と外部知識検索を動的に切り替えるインターリーブ推論を統合している。3万件未満の高品質な計画実行整合性トラジェクトリによる教師ありファインチューニングのみで学習し、段階的整合性フィルタリングで検証された本モデルは、知覚とマルチモーダル検索のベンチマークで最先端の結果を達成:MMSearchで66.1点、FVQAで67.2点を獲得し、全11指標でGemini 2.5 Flashを上回った。Skywork-R1V4は推論時に創発的な長期推論能力を示し、複雑な多段階タスクを解決するために10回以上のツール呼び出しを成功裏に調整する。本結果は、強化学習に依存せず、厳選された教師あり学習のみによって高度なエージェント型マルチモーダル知能が実現可能であることを実証している。
完全自律走行システムの実現には、安全クリティカルな状況や分布外の状況を含む多様なシナリオにおける合理的な判断の学習が不可欠です。しかし、人間の専門家によって収集された実世界のデータセットでは、こうした事例が十分に反映されていません。データ多様性の不足を補うため、既存の走行記録に基づいて大規模な未観測状態を合成可能な新規のシミュレーションフレームワークを提案します。本パイプラインは、摂動を加えたエゴ軌道によって制御される高精細なマルチビュー観測を、反応型環境を備えた先進的ニューラルレンダリング技術で生成します。さらに、新たにシミュレートされた状態に対して擬似専門家軌道生成メカニズムを開発し、行動教師信号を提供します。合成データを用いた検証により、実世界データとシミュレーションデータの単純な共同学習戦略が、困難な実世界ベンチマークにおいて各種計画手法のロバスト性と汎化性能を大幅に向上させることを確認しました(navhardで最大+6.8 EPDMS、navtestで+2.9)。特に重要なのは、実世界データの追加流入がなくとも、シミュレーションデータのみを増加させることで政策改善が滑らかにスケールする点です。さらに「SimScale」と名付けたこの模擬現実学習システムについて、擬似専門家の設計や各種政策アーキテクチャにおけるスケーリング特性など、いくつかの重要な知見を明らかにしました。シミュレーションデータとコードは公開予定です。
大規模言語モデル(LLM)とエージェントは、コード生成、数学的推論、科学発見の分野で目覚ましい進歩を遂げています。しかし、既存のベンチマークは主に正しさを測定するものであり、解決策背後にある手法の多様性を見落としています。真の革新性は、正しい答えを生み出すことだけでなく、アプローチの独創性にも依存します。本論文では、AIエージェントの革新可能性を体系的に評価する初のベンチマーク兼フレームワークであるInnoGymを提案します。InnoGynは二つの相補的指標を導入します。一つは既知の最良解法に対する改善度を測る「性能向上率」、もう一つは従来手法との方法論的差異を捕捉する「新規性」です。本ベンチマークには、現実の工学分野と科学分野から厳選された18の課題が含まれており、各課題はリソースフィルタリング、評価指標検証、解決策収集を通じて標準化されています。さらに、再現性のある長期的評価を可能にする統合実行環境「iGym」を提供します。大規模実験により、一部のエージェントが新規アプローチを生み出す一方で、頑健性の欠如が性能向上を制限していることが明らかになりました。これらの結果は、創造性と有効性の間に存在する重要な隔たりを浮き彫りにし、両方を評価するベンチマークの必要性を強調しています。
拡散モデルは画像生成において顕著な成功を収めているものの、その実用化は高い計算コストと多数の推論ステップが必要な点によって制限されている。従来の少ステップ蒸留に関する研究では、コンパクトな学生モデルを学習することで冗長なステップをスキップしようとする試みがなされてきたが、多大な再学習コストと一般化性能の低下に悩まされることが多い。本研究では、異なる視点からアプローチする:均一ではなく、賢く高速化することを目指し、初期の意味的段階には小さな加速を、後期の冗長な段階には大きな加速を適用する。我々は、この段階を考慮した戦略を、低速および高速のノイズ除去段階に特化した2つのエキスパートで具体化する。驚くべきことに、学生モデルの再学習に多大な労力を費やす代わりに、ベースモデルに軽量なLoRAアダプターを装備するだけで、効率的な加速と強力な一般化の両方が達成できることを発見した。これら2つのアダプターをSlow-LoRAおよびFast-LoRAと呼ぶ。大規模な実験を通じて、本手法はベースモデルに対して最大5倍の高速化を実現し、多様なベンチマークで同等の視覚的品質を維持する。特筆すべきは、LoRAエキスパートは1サンプルのデータで単一のV100上1時間以内に学習されるにもかかわらず、得られたモデルは未見のプロンプトに対しても強力に一般化することである。
映像から音響を生成する技術は進歩しているものの、既存研究の多くはモノラル出力に焦点が当てられており、空間的な没入感に欠ける。現行のバイノーラル手法は、まずモノラル音声を生成し、その後空間化を行うという二段階のパイプラインに制約されており、誤差の蓄積や時空間的不整合が生じやすい。この課題を解決するため、本研究では無音映像から直接エンドツーエンドでバイノーラル空間音響を生成するタスクを提案する。このタスクを支援するため、半自動化パイプラインにより構築した、多様な実世界シーンとカメラ回転軌道を含む約97Kの映像-バイノーラル音声ペアから成るBiAudioデータセットを公開する。さらに、条件付きフローマッチングを採用したエンドツーエンドフレームワークViSAudioを開発した。本手法は二つの専用ブランチが音声潜在フローをモデル化するデュアルブランチ構造を採用し、条件付き時空間モジュールと連携することで、チャネル間の一貫性を保ちつつ特徴的な空間特性を維持し、音声と入力映像の精密な時空間整合性を確保する。包括的実験により、ViSAudioが客観指標と主観評価の両方において既存の最先端手法を凌駕し、視点変化・音源移動・多様な音響環境に適応する空間的没入感の高い高品質なバイノーラル音声を生成できることを実証した。プロジェクトサイト:https://kszpxxzmc.github.io/ViSAudio-project。
近年、ビデオ大規模言語モデルの進歩により、短いクリップの理解において優れた能力が示されてきた。しかし、コンテキスト容量の限界や抽象化における重要な視覚的詳細の喪失により、数時間から数日にわたる長尺ビデオへの拡張は依然として大きな課題である。既存のメモリ拡張手法は、ビデオセグメントのテキスト要約を活用することでこの問題を緩和するが、テキストへの依存度が高く、複雑なシーンを推論する際に視覚的証拠を活用できない。さらに、固定された時間スケールからの検索は、可変的な時間幅にわたるイベントの捕捉において柔軟性をさらに制限する。これに対処するため、我々はWorldMMを提案する。これは、テキスト表現と視覚表現の両方を含む複数の相補的メモリを構築し、そこから検索を行う新しいマルチモーダルメモリエージェントである。WorldMMは3種類のメモリで構成される:エピソード記憶は複数の時間スケールにわたる事実的イベントを索引化し、意味記憶は高水準の概念的知識を継続的に更新し、視覚記憶はシーンに関する詳細な情報を保持する。推論時には、適応的検索エージェントが、クエリに基づいて最も関連性の高いメモリソースを反復的に選択し、複数の時間的粒度を活用する。これは、十分な情報が収集されたと判断されるまで継続される。WorldMMは、5つの長尺ビデオ質問応答ベンチマークにおいて既存のベースラインを大幅に上回り、従来の最先端手法と比較して平均8.4%の性能向上を達成し、長尺ビデオ推論におけるその有効性を示している。
視覚言語行動(VLA)モデルはロボットマニピュレーションにおいて顕著な能力を示すが、その性能は訓練時に使用する行動チャンク長(ホライゾン)に敏感である。我々の実証研究により、本質的なトレードオフが明らかになった:長いホライゾンは大域的な先読み能力を強化するが、細粒度の精度を低下させ、短いホライゾンは局所的な制御を鋭くする一方で長期的タスクに苦戦する。これは単一のホライゾンを固定的に選択する手法が非最適であることを示唆する。この課題を緩和するため、我々は混合ホライゾン(MoH)戦略を提案する。MoHは行動チャンクを異なるホライゾンを持つ複数のセグメントに再構成し、共有された行動トランスフォーマーで並列処理した後、軽量な線形ゲートで出力を融合する。これにより三つの利点が得られる。1) MoHは単一モデル内で長期的な先読みと短期的な精度を併用し、複雑なタスクにおける性能と一般化性を同時に向上させる。2) MoHはフルアテンション型行動モジュールに最小限の訓練/推論オーバーヘッドで追加可能なプラグアンドプレイ方式である。3) MoHは適応型ホライゾンによる動的推論を実現し、ホライゾン間の合意を通じて安定した行動を選択する。これにより優れた性能を維持しつつ、ベースライン比2.5倍のスループット向上を達成する。フローベース方策π_0、π_{0.5}、および1ステップ回帰方策π_{reg}を用いた大規模実験により、MoHがシミュレーションと実世界タスクの両方で一貫した有意な改善をもたらすことが実証された。特に混合タスク設定では、MoHを適用したπ_{0.5}が僅か3万訓練反復でLIBEROベンチマークにおいて平均成功率99%の新たな最高性能を達成した。プロジェクトページ:https://github.com/Timsty1/MixtureOfHorizons
低ビット幅への量子化は大規模言語モデルをデプロイする標準的な手法であるが、一部の極端な重みと活性化値がダイナミックレンジを拡大し、量子化器の実効分解能を低下させる問題がある。一般的な対策として、量子化前にアダマール行列などの固定直交変換を適用し、ダイナミックレンジを縮小する手法が用いられる。しかしこれらの変換はデータの統計的特性を考慮しておらず、その最適性は現時点で理論的に解明されていない。本研究では、共通の数値フォーマットにおけるデータ非依存型量子化器を用いた重みと活性化値の同時量子化のために、閉形式で表される最適な線形ブロック変換を世界で初めて導出した。具体的には、整数フォーマットと浮動小数点フォーマット双方における最近接丸め(RTN)およびAbsMaxスケーリングブロック量子化器のための、データ適応型最適変換の導出過程を示す。提案手法であるWUSHは、アダマール変換の骨格に二次モーメントに基づくデータ依存成分を組み合わせ、穏やかな仮定の下で理論的に最適であることが証明される非直交変換を実現する。さらに、効率的な実装が可能な構造を保持している。予備実験では、一般的な数値フォーマットにおいて提案手法がアダマール変換を一貫して上回ることを確認した。
潜在空間モデリングは拡散トランスフォーマー(DiT)における標準的な手法であった。しかし、この手法は事前学習されたオートエンコーダに依存する二段階パイプラインを必要とし、非可逆的な再構成による誤差蓄積を引き起こし、共同最適化を妨げるという課題があった。これらの問題を解決するため、本研究ではオートエンコーダを不要とし、ピクセル空間で直接拡散過程を学習する単一段階のエンドツーエンドモデルであるPixelDiTを提案する。PixelDiTは完全なトランスフォーマーベースのアーキテクチャを採用し、大域的な意味情報を捕捉するパッチレベルDiTと、テクスチャ詳細を精緻化するピクセルレベルDiTからなる二重階層設計により、細部の情報を保持しつつピクセル空間拡散モデルの効率的な学習を実現する。分析により、効果的なピクセルレベルトークンモデリングがピクセル拡散の成功に不可欠であることを明らかにした。PixelDiTはImageNet 256×256において1.61のFIDを達成し、既存のピクセル生成モデルを大幅に上回る。さらにテキストから画像への生成タスクに拡張し、1024×1024解像度でのピクセル空間事前学習を実施したところ、GenEvalで0.74、DPG-benchで83.5を達成し、最高性能の潜在拡散モデルに迫る結果を示した。
近年のオーディオビデオ生成システムは、マルチモーダル統合が音声と映像の同期性だけでなく、映像モダリティそのものにも有益であることを示唆している。本研究では、映像品質のみを重視する場合であっても、音声と映像の共同デノイジング訓練が映像生成を改善するかという基礎的な問いを提起する。これを検証するため、事前学習済みのテキストtoビデオ(T2V)およびテキストtoオーディオ(T2A)モジュールを共同デノイジングに活用する、パラメータ効率の高いAudio-Video Full DiT(AVFullDiT)アーキテクチャを提案する。同一設定下で、(i)AVFullDiTを用いたT2AVモデルと(ii)T2Vのみのモデルを学習した。結果として、音声映像共同デノイジングが同期性以上の効果をもたらすという初の体系的証拠を得た。大規模な物体運動や物体接触を特徴とする困難なサブセットにおいて、一貫した改善が観察された。我々は、音声の予測が特権信号として機能し、視覚的イベントとその音響的結果(例:衝突タイミングが音に与える影響)の因果関係をモデルに内在化させることで、映像ダイナミクスを正則化すると仮説を立てる。本発見は、クロスモーダル共同学習が、より強力で物理的に接地された世界モデルを構築する有望なアプローチであることを示唆する。コードとデータセットは公開予定である。
類推推論は人間の認知の中核をなすものであり、多様な知的活動の重要な基盤として機能している。従来の研究では大規模言語モデル(LLM)がタスクパターンや表面的な概念を表現できることが示されてきたが、これらのモデルが高次関係概念を符号化し、構造化された比較を通じて新たな状況に適用できるかどうかは未解明である。本研究では比例類推と物語類推を用いてこの基礎的側面を探り、3つの主要な知見を得た。第一に、LLMは類推対象間の根底にある関係性を効果的に符号化する。正答ケースでは属性情報と関係情報の両方が中上層で伝播する一方、推論失敗はこれらの層内での関係情報の欠如を反映する。第二に、人間とは異なり、LLMは関係情報が欠如している場合だけでなく、それを新たな対象に適用しようとする際にも困難を示す。こうした場合、重要なトークン位置での隠れ表現を戦略的に修正することで、情報伝達がある程度促進される。最後に、LLMにおける成功的な類推推論は、類推状況間の強い構造的対応によって特徴づけられるのに対し、失敗は対応の劣化または誤配置を反映する。総じて我々の知見は、LLMが高次関係概念の符号化と適用において萌芽的だが限定的な能力を示すこと、つまり人間の認知との共通点と隔たりの両方を明らかにするものである。
大規模言語モデル(LLM)は、テキスト生成ツールから強力な問題解決ツールへと急速に進化を遂げている。しかし、多くの未解決タスクには、批判的思考、複数情報源の統合、検証可能な出力が求められ、単一プロンプトによる生成や標準的な検索拡張生成では対応が困難である。近年、多くの研究が「深層研究(Deep Research: DR)」に着目している。これはLLMの推論能力を検索エンジンなどの外部ツールと組み合わせることで、LLMを複雑な未定義タスクを遂行可能な研究エージェントとして機能させることを目的とする。本調査は、深層研究システムについて、明確なロードマップ、基本構成要素、実装技術、重要な課題、将来の方向性を含む体系的かつ包括的な概観を提供する。具体的な主な貢献は以下の通りである:(i)3段階のロードマップを形式化し、深層研究と関連パラダイムを明確に区別する、(ii)クエリ計画策定、情報収集、メモリ管理、回答生成という4つの主要構成要素と、それぞれに対応する詳細な分類体系を提示する、(iii)プロンプト設計、教師ありファインチューニング、エージェント強化学習を含む最適化技術をまとめる、(iv)評価基準と未解決課題を整理し、将来の発展を導く枠組みを提供する。深層研究の分野が急速に進化し続ける中、本調査はこの領域の最新進展を反映すべく継続的に更新することを約束する。
本論文では、大規模言語モデル(LLM)と強化学習(RL)を組み合わせて、半精度汎用行列乗算(HGEMM)CUDAカーネルを自動最適化するシステム「CUDA-L2」を提案する。CUDAの実行速度をRLの報酬として用いることで、CUDA-L2は1,000の設定にわたってHGEMMカーネルを自動最適化する。CUDA-L2は、広く使用されている{\it torch.matmul}から、最先端のNvidiaのクローズドソースライブラリである{\it cuBLAS}、{\it cuBLASLt}に至るまで、これまでの主要な行列乗算ベースラインを系統的に凌駕する。オフラインモード(カーネルを時間間隔なく連続実行)では、CUDA-L2は平均的に、{\it torch.matmul} よりも+22.0%、最適なレイアウト設定(normal-normal NNおよびtransposed-normal TN)を使用した{\it cuBLAS} よりも+19.2%、{\it cuBLASLt}ライブラリに問い合わせてヒューリスティックの提案に基づきアルゴリズムを選択する{\it cuBLASLt-heuristic} よりも+16.8%、そして{\it cuBLASLt}の提案から最大100候補の中から最速アルゴリズムを選択する最も競合力の高い{\it cuBLASLt-AutoTuning} モデルよりも+11.4%の高性能を発揮する。サーバーモード(リアルタイム推論を模倣しカーネルをランダムな間隔で実行)では、高速化率はさらに向上し、{\it torch.matmul}、{\it cuBLAS}、{\it cuBLASLt-heuristic}、{\it cuBLASLt-AutoTuning}に対して、それぞれ+28.7%、+26.0%、+22.4%、+15.9%となる。CUDA-L2は、HGEMMのような性能が最もクリティカルで高度に最適化されたカーネルでさえも、人間にとって非現実的な規模で設定空間を系統的に探索するLLM誘導型RL自動化によって改善可能であることを示す。プロジェクトとコードは github.com/deepreinforce-ai/CUDA-L2 で公開されている。
フローマッチングで学習されたVision-Language-Action (VLA) モデルは、ロボットマニピュレーションタスクにおいて印象的な能力を示している。しかし、その性能は分布シフト下や複雑な多段階タスクにおいてしばしば低下し、学習された表現がタスク関連のセマンティクスを頑健に捉えられていない可能性が示唆される。本研究では、幾何学的正則化を通じてVLAの頑健性を高める原理的なフレームワーク、DiG-Flowを提案する。我々の重要な洞察は、観測と行動の埋め込み表現間の分布的差異が意味のある幾何学的信号を提供するという点である:すなわち、低い輸送コストは互換性のある表現を示し、高いコストは潜在的な不整合を示唆する。DiG-Flowは、観測と行動の埋め込み表現の経験的分布間の差異尺度を計算し、単調関数を介してそれを変調重みにマッピングした後、フローマッチングの前に観測埋め込み表現へ残差更新を適用する。決定的に重要なのは、この介入が表現レベルで動作し、フローマッチングの経路や目標ベクトル場を変更しない点である。我々は、差異誘導型学習が理論的に学習目的関数を減少させ、誘導型推論改良が収縮性を持って収束することを保証する理論的保証を提供する。実験的には、DiG-Flowは既存のVLAアーキテクチャにわずかなオーバーヘッドで統合され、性能を一貫して向上させ、特に複雑な多段階タスクおよび限られた訓練データ下において顕著な改善をもたらす。
近年の動画生成技術は、時間的一貫性に優れ、視覚的品質の高い映像合成を可能にし、ビジョン基盤モデル実現に向けた重要な進展を示している。こうした動画生成モデルを評価する既存のベンチマークは、視覚的美観、指示への忠実度、時間的整合性など、視覚的知覚・理解に関連する要素に主眼が置かれている。しかし、動画生成モデルが持つルールベース推論能力は未だ十分に検証されていない。最近の研究では動画モデルのゼロショット学習能力に関する予備的検討が進められているものの、推論能力を細粒度で分解した体系的な評価枠組みは依然として不足している。この課題を解決するため、本論文では認知ルールの観点から動画生成モデルの推論能力を評価するベンチマーク「RULER-Bench」を提案する。テキスト対動画と画像対動画という二つの基本パラダイムに基づき、6つのルールカテゴリに跨る40の代表タスクを網羅し、622件の高品質注釈インスタンスを構築した。生成動画の評価では、4指標をカバーするチェックリストを作成し、GPT-4oを用いた自動採点を実施。人間の判断との一致率は85%に達した。大規模実験により、現状の最先端モデルでもルール整合性指標で48.87%に留まることが明らかとなり、次世代動画モデルにおける推論能力の大幅な改善余地が示された。RULER-Benchから得られる知見が、推論を意識した動画生成技術の発展を促進し、ビジョン基盤知能を目指す動画生成モデルの進化に寄与することを期待する。
表認識(TR)は、表画像をHTMLやMarkdownといった半構造化された表現に変換することを目的としています。文書解析の中核をなす技術として、TRは長年にわたり教師あり学習に依存しており、近年ではラベル付きデータを用いた視覚言語モデル(VLM)のファインチューニングが主流となっています。VLMはTRの性能を次の段階へと押し上げましたが、性能をさらに向上させるには、取得コストが高い大規模なラベル付きデータが必要となります。その結果、プロプライエタリモデルは性能限界を更新し続けている一方で、リソースが限られた環境で学習されることが多く、実際にはプライバシー規制により多くのユーザーにとって唯一の現実的な選択肢であるオープンソースモデルは、依然として大きく遅れを取っています。この差を埋めるため、我々はTRiviaを提案します。これは、事前学習済みVLMがラベルなしの実世界の表画像から直接TRを学習できるようにする自己教師ありファインチューニング手法です。Group Relative Policy Optimizationを基盤として構築されたTRiviaは、学習を最も効果的に促進するラベルなしサンプルを自動的に特定し、質問応答ベースの報酬メカニズムを通じて人手によるアノテーションを不要とします。注意機構に導かれたモジュールが各表画像に対して多様な質問を生成し、認識結果を解釈してそれらに正しく答える能力が、TRモデルを最適化するためのフィードバックを提供します。この閉ループプロセスにより、TRモデルはラベル付きデータなしで、表を認識し、構造化し、推論することを自律的に学習できます。このパイプラインを活用し、我々はTRivia-3Bを発表します。これは、オープンソースでコンパクト、かつ最先端のTRモデルであり、3つの人気ベンチマークにおいて既存システム(例:Gemini 2.5 Pro, MinerU2.5)を凌駕します。モデルとコードは以下で公開されています:https://github.com/opendatalab/TRivia
我々はMagicQuill V2を提案する。これは、生成的な画像編集に階層的な合成パラダイムを導入する新規システムであり、拡散モデルの意味論的能力と従来のグラフィックスソフトウェアの詳細な制御性との間の隔たりを埋めるものである。拡散トランスフォーマーは全体的な生成に優れるが、単一の包括的なプロンプトを使用するため、コンテンツ、位置、外観といった異なるユーザー意図を分離して扱うことができない。この課題を克服するため、本手法は創造的意図を制御可能な視覚的キュー群へと分解する。すなわち、何を作成するかのコンテンツ層、どこに配置するかの空間層、どのように形状づけるかの構造層、そしてその配色パレットを担う色層である。我々の技術的貢献は、文脈を考慮したコンテンツ統合のための専用データ生成パイプライン、全ての視覚的キューを処理する統一制御モジュール、オブジェクト除去を含む精密な局所編集のためのファインチューニングされた空間分岐を含む。大規模な実験により、この階層的アプローチがユーザー意図の隔たりを効果的に解決し、創造者に生成プロセスに対する直接的で直感的な制御を付与することが実証された。
我々は、様々なChain-of-Thought(CoT)設計が視覚言語モデル(VLM)における一般化可能な視覚推論能力の獲得に与える影響を研究する。特に、長いCoTや「画像で考える」といった視覚的CoTなどの推論データは、中間推論を監督するために広く用いられているが、なぜ特定のCoT設計が有効なのか、またどの設計が真に一般化可能な推論を支援するのかは不明である。これを体系的に評価するため、推論規則が完全に視覚的であり、難易度をグリッドサイズで調整可能で、すべての中間ステップを自動生成できる迷路解決ベンチマークに焦点を当てる。標準的なSFT-then-RLパイプラインの下でQwen2.5-VL-7Bを使用し、言語CoT、グラウンディングCoT(空間座標軌跡付き)、視覚CoT(画像操作付き)という3つの代表的なCoT形式を比較する。実験結果から、視覚的で長いCoTは主に収束を加速するが最終性能の上限は引き上げないこと、本質的なグラウンディングステップのみを含む簡潔なCoTが長い軌跡を上回ること、そして驚くべきことに、最小限のグラウンディング結果のみを保持するCoTが異なる迷路サイズ間で最も優れた一般化性能を示すことが明らかとなった。さらに、これらの知見を他の視覚中心タスクで検証する。これらの発見は「短い方が長い」効果を浮き彫りにし、視覚推論のためのより一般化可能なSFTデータセット構築に対する実践的な指針を提供する。
Physical AIは、現実世界の力学を認識・予測するモデルの構築を目指すが、現在のマルチモーダル大規模言語モデルや映像生成モデルがこれらの能力をどの程度備えているかは十分に解明されていない。本研究では、映像生成、条件付き映像生成、映像理解における認識・予測能力を評価する統合的なベンチマークPhysical AI Bench(PAI-Bench)を提案する。これは2,808件の実世界事例から構成され、物理的な整合性と領域特化的な推論を捉えるよう設計されたタスク対応指標を備える。最新モデルに対する体系的な評価により、映像生成モデルは視覚的な忠実度が高いにもかかわらず物理的に一貫した力学表現に課題があり、マルチモーダル大規模言語モデルは予測と因果解釈において限定的な性能を示すことが明らかになった。これらの知見は、現行システムがPhysical AIの認知的・予測的要求に対応する初期段階にあることを示唆する。総じてPAI-Benchは、Physical AI評価の現実的な基盤を確立し、将来のシステムが解決すべき重要な課題を浮き彫りにする。
本論文では、映像生成モデルが視覚データのみを用いて、人間の認知の中核をなす能力である視覚空間的知能を発揮し得るかどうかを検証する。この目的のために、映像ベースのシーン文脈のみを条件として、複雑な空間タスクを実行可能であることを示すフレームワーク「Video4Spatial」を提案する。検証は2つのタスクで行う:シーン内を移動する「シーンナビゲーション」(カメラポーズの指示に従いながらシーンの3Dジオメトリとの整合性を保つタスク)と、意味的ローカライゼーション、指示追従、計画を要求する「物体グラウンディング」である。両タスクは深度やポーズなどの補助モダリティを用いず、映像入力のみを使用する。フレームワークとデータキュレーションにおけるシンプルかつ効果的な設計選択により、Video4Spatialは映像文脈からの強力な空間理解能力を示す:ナビゲーションを計画し対象物体をエンドツーエンドで接地すること、カメラポーズの指示に従いながら空間的一貫性を維持すること、長い文脈や学習対象外の環境へ一般化すること、が可能である。これらの結果は総合的に、映像生成モデルを汎用的な視覚空間推論へと前進させるものである。
LLM/VLMを駆動するAIエージェントは、数学、コーディング、コンピュータ操作において急速な進化を遂げているが、複雑な物理的・社会的環境への応用は依然として困難な課題である。現実世界で自律的に収入を得たり事業を運営したりするような、生存し繁栄するエージェントを構築するには、多様な身体化シナリオにおける大規模なインタラクション、推論、訓練、評価が必要とされる。しかし、そのような開発のための既存の世界シミュレータは不十分である。それらは限定的な手作り環境に依存し、単純化されたゲーム的な物理法則や社会ルールをシミュレートし、LLM/VLMエージェントへのネイティブなサポートを欠いていることが多い。 我々は、Unreal Engine 5上に構築された新しいシミュレータ「SimWorld」を紹介する。SimWorldは、豊かで現実世界に似た環境下でLLM/VLMエージェントを開発・評価するために設計されている。SimWorldは以下の3つの核となる機能を提供する:(1) 正確な物理・社会ダイナミクスと言語駆動のプロシージャル環境生成を含む、現実的で開放的な世界シミュレーション;(2) マルチモーダルな世界入力と、様々な抽象度でのオープン語彙アクションを備えた、LLM/VLMエージェントのための豊富なインターフェース;(3) ユーザーが容易にカスタマイズ可能な、多様で拡張性のある物理的・社会的推論シナリオ。 我々は、戦略的協力と競争を伴う長期的なマルチエージェント配送タスクに、最先端のLLMエージェント(GPT-4o、Gemini-2.5-Flash、Claude-3.5、DeepSeek-Prover-V2など)を配置することでSimWorldの実証を行う。結果は、モデル間における特有の推論パターンと限界を明らかにしている。我々はSimWorldをオープンソースとして公開し、これが学際的な実世界エージェント知能の発展のための基盤プラットフォームとなることを期待する:https://simworld.org
事前学習済み視覚言語モデル(VLM)を基盤とする Vision-Language-Action(VLA)モデルは強力な可能性を示すが、パラメータ数が膨大であるため実用性に課題がある。この問題を緩和するため、軽量なVLMの使用が検討されているが、それは時空間推論能力を犠牲にする。追加の3D入力を組み込む手法が提案されているものの、それらは通常、大規模VLMに依存して3Dと2D入力を融合させるため、時間的な理解が依然として不足している。そこで我々は、設計効率を維持しつつ4D理解能力をコンパクトなモデルに付与するアーキテクチャ、SwiftVLAを提案する。具体的には、2D画像から4D特徴を抽出する、時間キャッシュを備えた事前学習済み4D視覚幾何学トランスフォーマーを特徴とする。次に、VLMが2D画像と4D特徴の両方を活用する能力を強化するため、将来予測を目的として学習可能なトークンの集合であるFusion Tokensを導入し、行動生成のための統合された表現を生成する。最後に、VLMへの4D入力をマスキングし、VLAにそれらを再構築させる学習戦略(mask-and-reconstruct)を導入する。これにより、VLMは効果的な4D表現を学習でき、推論時には4D分岐を除去しても性能劣化を最小限に抑えられる。実環境およびシミュレーション環境での実験により、SwiftVLAは軽量ベースラインを上回り、最大7倍大規模なVLAモデルと同等の性能を発揮し、エッジデバイスでは18倍の高速化と12倍のメモリフットプリント削減を実現しつつ、同等の性能を達成することを示した。
オーディオ駆動アバター動画生成における拡散モデルは、自然な音声-視覚同期とアイデンティティ一貫性を備えた長尺シーケンスの合成において顕著な進歩を遂げているが、カメラ運動を伴う音楽演奏動画の生成は未だほとんど未開拓の領域である。本論文では、音楽駆動の長尺動画生成における最初のカスケードフレームワークであるYingVideo-MVを提案する。本手法は、音声音響信号から高品質な音楽演奏動画を自動合成するために、音声音響意味解析、解釈可能なショット計画モジュール(MV-Director)、時間認識拡散Transformerアーキテクチャ、および長尺シーケンス一貫性モデリングを統合する。多様で高品質な結果の達成を支援するため、ウェブデータを収集して大規模なMusic-in-the-Wildデータセットを構築した。既存の長尺動画生成手法には明示的なカメラ運動制御が欠如していることを踏まえ、カメラ姿勢を潜在ノイズに埋め込むカメラアダプタモジュールを導入する。長尺シーケンス推論におけるクリップ間の連続性を高めるため、音声音響埋め込みに基づいてノイズ除去範囲を適応的に調整する時間認識動的ウィンドウ範囲戦略をさらに提案する。包括的なベンチマークテストにより、YingVideo-MVが一貫性と表現力に富むミュージックビデオの生成において優れた性能を達成し、音楽-動作-カメラの精密な同期を実現することを実証した。詳細な動画はプロジェクトページ(https://giantailab.github.io/YingVideo-MV/ )で公開している。
本論文では、計算資源が限られた環境下でも効率的に動作する、高品質なテキスト描画に特化して最適化された7Bパラメータのテキスト生成画像モデル「Ovis-Image」を提案する。Ovis-Imageは、従来のOvis-U1フレームワークを発展させ、拡散ベースのビジュアルデコーダと、より強力なOvis 2.5マルチモーダル基盤モデルを統合している。大規模な事前学習と、細心の注意を払って調整された学習後調整を組み合わせた、テキスト中心の学習パイプラインを採用している。コンパクトなアーキテクチャにもかかわらず、Ovis-Imageのテキスト描画性能は、Qwen-Imageのようなはるかに大規模なオープンモデルと同等であり、SeedreamやGPT4oのようなクローズドソースシステムに迫る。重要な点は、モデルが中程度のメモリを搭載した単一の高性能GPUにデプロイ可能であり、最先端のテキスト描画性能と実用的なデプロイ性のギャップを狭めていることである。実験結果は、強力なマルチモーダル基盤モデルと、注意深く設計されたテキスト焦点型の学習レシピを組み合わせることで、過大なモデルやプロプライエタリなモデルに頼ることなく、信頼性の高い二言語テキスト描画を実現できることを示唆している。
分単位の動画生成は、世界モデルの開発に向けた重要なステップであり、現実的な長時間シーンと高度なAIシミュレーターの基盤を提供する。新興のセミオートレグレッシブ(ブロック拡散)パラダイムは、拡散モデルとオートレグレッシブモデルの長所を統合し、任意長の動画生成を可能にするとともに、KVキャッシュと並列サンプリングによる推論効率の向上を実現している。しかし、依然として二つの課題が残されている:(i)KVキャッシュに起因する長期誤差蓄積問題、(ii)細粒度な長尺動画ベンチマークとコヒーレンス評価指標の不足である。これらの制限を克服するため、本論文ではBlockVidを提案する。これはセマンティックを考慮した疎KVキャッシュを備えた新しいブロック拡散フレームワークであり、Block Forcingと称する効果的な学習戦略、誤差伝播の低減と時間的一貫性の向上を図る専用のチャンク単位ノイズスケジューリング・シャッフリング機構を導入する。さらに、分単位の動画向け細粒度ベンチマークLV-Benchを構築し、長距離コヒーレンスを評価する新規指標を整備した。VBenchおよびLV-Benchにおける大規模実験により、BlockVidが高品質で一貫性のある分単位動画の生成において、既存手法を一貫して凌駕することを実証した。特にLV-Benchでは、VDE Subjectで22.2%、VDE Clarityで19.4%の改善を最先端手法に対して達成している。プロジェクトサイト:https://ziplab.co/BlockVid。Inferix(コード):https://github.com/alibaba-damo-academy/Inferix。
今日では、コンサートやスポーツイベント、講演、家族の集い、誕生日パーティーなど、人々は複数の民生用カメラで記憶に残る瞬間を容易に記録できる。しかし、これらのクロスカメラストリームを同期させることは依然として困難な課題である。既存の手法は、制御された環境、特定の被写体、手動補正、または高価なハードウェアを前提としている。本研究では、ミリ秒精度でポーズ調整されていない非同期ビデオを整列させる、マルチビューダイナミクスに基づく最適化フレームワークVisualSyncを提案する。重要な知見は、2つのカメラで共同可視となる任意の移動3D点は、適切に同期されればエピポーラ制約に従うことである。これを活用するため、VisualSyncは既製の3D復元、特徴マッチング、密な追跡を利用して、トラックレット、相対ポーズ、クロスビュー対応を抽出する。その後、エピポーラ誤差を共同で最小化し、各カメラの時間オフセットを推定する。4つの多様で困難なデータセットを用いた実験により、VisualSyncがベースライン手法を上回り、中央値同期誤差50ms未満を達成することを示す。
多視点画像からの3D再構成は、コンピュータビジョンにおける中核的な課題である。近年、フィードフォワード手法が、従来のシーン毎の最適化手法に代わる効率的かつロバストな代替法として登場している。その中でも、Visual Geometry Grounding Transformer(VGGT)のような最先端モデルは、全ての画像トークンに対する完全な自己注意機構を活用し、大域的な関係性を捉える。しかしながら、この手法は、自己注意の二次の計算量と、長い画像シーケンスで生成される膨大なトークン数により、拡張性の悪さに悩まされている。本研究では、このボトルネックを記述子ベースの注意機構によって解決する効率的な代替手法、FlashVGGTを提案する。FlashVGGTは、全てのトークン間にわたる密な大域的な注意を適用する代わりに、各フレームからの空間情報をコンパクトな記述子トークンの集合に圧縮する。大域的な注意は、画像トークン全体とこのより小さな記述子集合との間のクロスアテンションとして計算され、計算オーバーヘッドを大幅に削減する。さらに、記述子のコンパクト性により、前のチャンクからキャッシュされた記述子を再利用するチャンク再帰メカニズムを通じて、長いシーケンスに対するオンライン推論を可能にする。実験結果では、FlashVGGTが、1,000枚の画像において推論時間をVGGTのわずか9.3%に削減しつつ、VGGTと同等の再構成精度を達成し、3,000枚を超えるシーケンスへ効率的にスケールすることを示す。プロジェクトページはhttps://wzpscott.github.io/flashvggt_page/で公開されている。
自己回帰(AR)言語モデルと拡散言語モデル(DLM)は、大規模言語モデルの二大パラダイムを構成する。しかしながら、両パラダイムは推論能力の不足に悩まされている。人間の推論は本質的に因果的知識と思考に依存しており、これは自然言語に反映されている。しかしARパラダイムでは、言語は次トークン予測(厳密な左から右へ、トークンバイトークンの順序)としてモデル化されるのに対し、自然言語自体はより柔軟な因果的構造を示す。DLMパラダイムでは、注意機構が完全接続されており、因果的順序が完全に無視されている。このギャップを埋めるため、我々は**C**ausal **C**oncept-Guided **D**iffusion **L**anguage **M**odel(C^2DLM)を提案する。DLMの完全接続注意機構を出発点として、C^2DLMはまず教師モデルから概念レベルの因果グラフを取得し、その後、注意機構を明示的に導くことで概念間の因果関係を学習する。因果関係に焦点を当て、因果逆転を含む困難なサブゴールからの干渉を回避することにより、C^2DLMはCOT-OrderPerturbタスクにおいて約3.2倍の学習速度向上と12%の性能向上を達成し、6つの下流推論タスクにおいて平均1.31%のゲインを得た。詳細はリポジトリ ~https://github.com/Kairong-Han/C-2-DLM{こちら} を参照されたい。
Masked Diffusion Language Model(MDLM)は、近年、Autoregressive Language Model(ARLM)の有望な代替として登場し、原理的にはより均一な文脈利用を可能にするはずのノイズ除去目的関数を活用している。本研究では、MDLMの文脈理解能力を検証し、2つの重要な限界を明らかにする。第一に、よりグローバルな訓練目的関数と双方向アテンション機構を備えているにもかかわらず、MDLMはARLMと同様に強い局所性バイアスを示す:性能は入力内の関連情報の位置に強く影響され、遠い文脈よりも局所的な文脈を優先する。第二に、生成に必要とされる多数のマスクトークンを付加することが、文脈理解を著しく損なうことを示す。体系的なアブレーション実験を通じて、これらのマスクが注意散漫要因として作用し、モデルが関連情報を処理する能力を低下させることを明らかにする。この問題に対処するため、予測が付加されるマスク数に依存しないことを促すマスク非依存損失関数を提案する。この目的関数によるファインチューニングは、マスクの注意散漫効果を大幅に軽減し、MDLMの頑健性を向上させる。全体として、我々の知見は現在のMDLM訓練パラダイムの重大な限界を暴露するとともに、より強力な文脈理解能力を持つ拡散ベース言語モデル構築への実践的な示唆を提供する。
エージェンシック視覚言語モデルは、画像操作を呼び出すことで「画像を用いて思考する」ように訓練されることが増えている。しかし、高い最終回答精度が、しばしば不忠実な視覚的推論を隠蔽していることを我々は明らかにする。すなわち、モデルは無関係な領域に対してツールを起動したり、ツールの出力を完全に無視したりしても、依然として正しい答えを推測してしまう可能性がある。本研究ではまず、中間的な視覚ツールの出力(例:画像の切り抜き)が実際に問い合わせられた証拠を含んでいるかどうかを測定する、忠実性評価プロトコルを提案する。これにより、最近の視覚エージェントは高い最終回答精度を達成するものの、視覚的検索ベンチマークにおいて忠実なツール使用率が低いことが明らかになった。次に、我々はCodeVを紹介する。これは、Tool-Aware Policy Optimization (TAPO) で訓練されたコードベースの視覚エージェントである。TAPOは、プロセスレベルでの強化学習フレームワークであり、思考連鎖トークンではなく、視覚ツールの入力と出力に直接定義された密な報酬でGRPOを拡張する。これにより、監督が検証しやすくなり、報酬ハッキングの影響を受けにくくなる。CodeVは視覚ツールを実行可能なPythonコードとして表現し、TAPOは質問とツール出力のみに基づいてステップごとの報酬を割り当て、必要かつ証拠と整合性のあるツール使用を促進する。2段階(SFT+RL)のパイプラインにおいて、CodeVは、関連する視覚的検索ベンチマークで忠実なツール使用率を大幅に向上させながら、競争力のある、あるいは優れた精度を達成した。視覚的検索を超えて、CodeVは様々なマルチモーダル推論および数学のベンチマークで強力な性能を発揮し、中間ツールの振る舞いを明示的に監督することが、信頼できるエージェンシックな視覚推論システムを構築する上で極めて重要であることを示唆している。
ユークリッド幾何学における自動定理証明、特に国際数学オリンピック(IMO)レベルの問題に対するそれは、人工知能における主要な課題かつ重要な研究焦点であり続けている。本論文では、ニューラルネットワークベースの推論に依存せず、CPU上で完全に動作する、極めて効率的な幾何学定理証明法を提案する。我々の予備調査では、補助点を追加する単純なランダム戦略が、IMOにおいて銀メダルレベルに相当する人間の性能を達成し得ることが示されている。これを発展させ、我々はHAGeo(Heuristic-based method for adding Auxiliary constructions in Geometric deduction)を提案する。この手法は、IMO-30ベンチマークの30問中28問を解決し、金メダルレベルの性能を達成するとともに、競合するニューラルネットワークベースの手法であるAlphaGeometryを顕著な差で上回った。我々の手法及び既存手法をより包括的に評価するため、我々はさらに、人間が評価した難易度を持つ409問の幾何学問題から構成されるベンチマークHAGeo-409を構築した。広く用いられているIMO-30と比較して、本ベンチマークはより大きな挑戦を課し、より精密な評価を提供するため、幾何学定理証明に対してより高いハードルを設定するものである。
ビデオ生成の次のフロンティアは、ゼロショット推論が可能なモデルの開発にある。多様な条件下で正確な物理的結果をモデル化するには、現実世界の科学的法則を理解することが極めて重要である。しかし、既存のビデオベンチマークは物理的常識に基づいており、ビデオモデルの科学的推論能力を深く評価するには限界がある。本研究では、ビデオモデルにおける大学教養レベル以上の科学的理解を評価するためのベンチマーク「VideoScience-Bench」を提案する。各プロンプトは複数の科学的概念にわたる理解と推論を必要とする複合的な科学的シナリオをコード化しており、正しい現象を生成することを求める。本ベンチマークは、物理学と化学の14分野・103概念をカバーする、厳選された200のプロンプトで構成される。T2VおよびI2V設定における7つの最先端ビデオモデルに対し、専門家による注釈に基づく評価を(1)プロンプト一貫性、(2)現象適合性、(3)動的正确性、(4)不変性、(5)時空間連続性——の5次元で実施した。VLM-as-a-Judgeを用いてビデオ生成を評価した結果、人間の評価との強い相関が確認された。私たちの知る限り、VideoScience-Benchは、ビデオモデルを単なる生成器としてではなく推論器として評価する初のベンチマークであり、生成結果が期待される物理・化学現象と合致する科学的理解を示すことを要求する。データと評価コードはhttps://github.com/hao-ai-lab/VideoScience で公開している。
ポートレート動画の編集は、外見の変更、表情の編集、オブジェクトの追加など、多岐にわたる修正を柔軟かつ精密に制御することを必要とする困難な課題である。主な難しさは、被写体の元の時間的動作を保持することにあり、編集されたすべてのフレームが対応するソースフレームと正確に同期し続けることを要求する。本研究では、フレーム精度での同期とアイデンティティの一貫性を維持しつつ、高品質な視覚的修正を実現するポートレート動画編集手法、Sync-LoRAを提案する。我々のアプローチは、画像-動画拡散モデルを利用し、編集は最初のフレームを修正することで定義し、その後その変更をシーケンス全体に伝播させる。正確な同期を可能にするため、同一の動きの軌跡を描くが外見が異なるペアの動画を用いて、インコンテキストLoRAを学習する。これらのペアは自動生成され、同期性に基づくフィルタリング処理を経て厳選され、時間的に最も整合性の高い例のみが学習に選択される。この学習設定により、モデルはソース動画からの動きの手がかりと、編集された最初のフレームで導入された視覚的変化とを組み合わせることを学ぶ。厳選されたコンパクトな同期された人物ポートレートデータセットで学習されたSync-LoRAは、未見の人物IDや多様な編集(例:外見の変更、オブジェクトの追加、背景の変更)に一般化し、ポーズや表情の変動に対して頑健に対処する。我々の結果は、高い視覚的忠実度と強固な時間的一貫性を示し、編集の忠実度と精密な動きの保存の間の頑健なバランスを達成している。
大規模マルチモーダルモデル(GPT-4o、Nano Banana、Seedream 4.0など)の急速な発展に伴い、画像編集分野においてクローズドソースモデルとオープンソースモデルの性能差が拡大している。この差は主に、大規模で高品質な訓練データの不足、および多様な編集行動にわたるモデルの弱点を診断できる包括的ベンチマークの欠如に起因する。既存のデータ構築手法は規模と品質のトレードオフに直面しており、人手による注釈は高品質だが拡張性に欠け、自動化パイプラインは誤差伝播やノイズの問題を抱えている。この課題に対処するため、我々はマルチツールチェーンをエンドツーエンドモデルと統一的な後検証段階で置き換える軽量データパイプラインを提案する。拡張可能な品質管理のために、効率的な失敗検出と指示文再キャプション化を目的とした7Bパラメータのデュアルタスク専門モデルQwen-Verifyを訓練した。このパイプラインにより、多様な基本編集タスクと複雑編集タスクを網羅する1,000万規模のデータセットUnicEdit-10Mを構築した。さらに、基本編集を超え、空間的・知識駆動型推論を明示的に評価する汎用ベンチマークUnicBenchを提案する。細粒度な診断を可能にするため、非編集領域一貫性や推論精度といった新規指標を導入した。UnicBenchにおける主流モデルの分析を通じて、それらの限界を明らかにし、将来の研究に向けた明確な方向性を示す。
大規模視覚言語モデルの急速な発展に伴い、グラフィカルユーザーインターフェース(GUI)エージェントタスクの焦点は、単一画面タスクから複雑な画面ナビゲーション課題へと移行しつつある。しかし、PCソフトウェアやモバイルアプリなどの実世界のGUI環境は、複雑で独自仕様であることが多く、エージェントの学習と評価に必要な包括的な環境情報の取得が困難である。この制約が、エージェントのナビゲーション能力に関する体系的な調査とベンチマーク構築を妨げている。この課題を解決するため、本研究ではGUIエージェントナビゲーション研究のためのシミュレーション環境エンジン「GUI Exploration Lab」を提案する。本エンジンは、画面、アイコン、ナビゲーショングラフを柔軟に定義・構成できると同時に、環境情報への完全なアクセスを提供し、エージェントの包括的な学習と評価を可能にする。大規模な実験を通じて、教師ありファインチューニングが基礎知識の効果的な記憶学習を実現し、後続の学習における重要な基盤となることを明らかにした。この基盤の上で、単一ターン強化学習は未経験シナリオへの一般化能力をさらに向上させる。最後に、多ターン強化学習は、インタラクティブな試行錯誤を通じて探索戦略の発達を促進し、画面ナビゲーション性能のさらなる改善をもたらす。静的およびインタラクティブなベンチマークにおいて本手法を検証し、これらの知見が実世界シナリオに効果的に一般化することを実証した。これらの発見は、GUIナビゲーションにおける強化学習アプローチの優位性を示すとともに、より高機能で一般化可能なGUIエージェント構築への実践的指針を提供する。
大規模マルチモーダルモデルは、理解と生成の両面で著しい進歩を遂げている。近年の研究では、異種コンポーネントを統合し、単一フレームワーク内で両機能をサポートする統一マルチモーダルモデルの実現が追求されている。しかし、このような統一化は推論の非効率性を招く。例えば、特定のタスクやサンプルでは統一モデルの全知識や容量を必要としない場合がある。にもかかわらず、これらの非効率性が異なるコンポーネント間でどのように現れるかについての体系的理解は限られている。本研究ではまず、トレーニング不要の枝刈りを probing 手法として用い、深度方向の枝刈りと幅方向の削減の両方を考慮し、統一マルチモーダルモデルコンポーネントの体系的分析を行う。我々の調査により、理解コンポーネントは理解タスクと生成タスクの両方で顕著な圧縮可能性を示し、特に後者でより顕著であることが明らかになった。対照的に、生成コンポーネントは圧縮に対して非常に敏感であり、中程度の圧縮率でも性能が急激に劣化する。この制限に対処するため、我々は異なるサンプル間で観察される動的活性化パターンに着想を得たMixture-of-Experts (MoE) Adaptationを提案する。このアプローチは生成モジュールを複数のエキスパートに分割し、疎な活性化を可能にすることで生成品質を回復させる。エキスパート凍結チューニングを通じて疎活性化の有効性を検証し、さらに完全に学習可能な適応が追加の性能向上をもたらすことを実証する。その結果、適応されたBAGELモデルは、パラメータの約半分のみを活性化しながら、完全なモデルに匹敵する性能を達成する。コードはhttps://github.com/Shwai-He/SparseUnifiedModel{このリンク}で公開されている。
視覚知覚政策のための強化学習フレームワークにおいて、自然言語で表現された中間推論連鎖を組み込む手法が登場している。しかし実証観察によれば、このような純粋に言語的な中間推論は、知覚タスクの性能をむしろ低下させることが多い。本論文では、問題の本質が推論そのものではなく推論の形式にあると主張する。既存手法が非構造化された言語空間で意味的推論を行うのに対し、視覚知覚は空間的かつ対象中心の空間での推論を必要とする。これに対応するため、我々は構造化された提案ベース推論を行う知覚政策学習フレームワークArtemisを提案する。Artemisでは各中間ステップが(ラベル、バウンディングボックス)のペアとして表現され、検証可能な視覚状態を捉える。この設計により、中間状態の明示的な追跡、提案品質への直接的な監督が可能となり、言語ベース推論が導入する曖昧性を回避する。ArtemisはQwen2.5-VL-3Bを基盤とし、接地認識や検出タスクで高い性能を達成するとともに、計数や幾何学知覚タスクへの顕著な一般化能力を示す。これらの多様な設定における一貫した改善は、推論を空間的表現に整合させることで知覚政策学習が強化されることを実証する。強化された視覚推論能力により、Artemisは一般MLLMベンチマークでも競合力のある性能を達成し、空間に根ざした推論がスケーラブルで汎用的な知覚政策への原理的な道筋を提供することを示唆する。
教育のグローバル化とオンライン学習の急速な発展により、教育コンテンツのローカライゼーションは重要な課題となっている。講義資料は本質的にマルチモーダルであり、音声と視覚的なスライドが組み合わさっているため、複数の入力モダリティを処理できるシステムが求められる。アクセシブルで完全な学習体験を提供するには、翻訳はすべてのモダリティを保持しなければならない:読むためのテキスト、視覚的理解のためのスライド、聴覚学習のための音声である。本論文では、講義の音声とスライドを共同で翻訳し、翻訳されたテキスト、視覚要素を保持したローカライズ版スライド、合成音声という3つのモダリティで同期した出力を生成するマルチモーダル多言語講義コンパニオン「BOOM」を提案する。このエンドツーエンドのアプローチにより、学生は母国語で講義にアクセスできながら、オリジナルコンテンツを完全に保存することを目指す。我々の実験により、スライドを考慮した書き起こし文が、要約や質問応答などの下流タスクにも連鎖的な利益をもたらすことが実証された。スライド翻訳コードはhttps://github.com/saikoneru/image-translator で公開し、Lecture Translator に https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline にて統合した}\footnote{公開されているすべてのコードとモデルはMITライセンスの下で提供されている。}
最先端のビデオシーングラフ生成(VSGG)システムは構造化された視覚的理解を提供するが、人間のガイダンスを取り込む能力のない閉じたフィードフォワードパイプラインとして動作する。一方、SAM2のようなプロンプト可能なセグメンテーションモデルは精密なユーザーインタラクションを可能にするが、意味的または関係的推論を欠いている。本論文では、パンオプティックビデオシーングラフ生成(PVSG)における初のインタラクティブフレームワークであるClick2Graphを提案する。本フレームワークは視覚的プロンプティングと空間的・時間的・意味的理解を統合する。クリックやバウンディングボックスなどの単一のユーザーキューから、Click2Graphは被写体を時間的にセグメンテーションおよび追跡し、相互作用するオブジェクトを自律的に発見し、<主語、目的語、述語>のトリプレットを予測して時間的に一貫性のあるシーングラフを形成する。本フレームワークでは、被写体条件付きのオブジェクトプロンプトを生成する動的インタラクション発見モジュールと、エンティティと述語の共同推論を行う意味的分類ヘッドという2つの主要コンポーネントを導入する。OpenPVSGベンチマークによる実験では、Click2Graphがユーザー誘導型PVSGの強固な基盤を確立することが示され、人間のプロンプティングがパンオプティックグラウンディングと関係推論と組み合わされることで、制御可能かつ解釈可能なビデオシーン理解が実現可能であることを実証している。