UniT:統一マルチモーダル思考連鎖によるテスト時スケーリング
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
February 12, 2026
著者: Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu
cs.AI
要旨
統合モデルは単一のアーキテクティでマルチモーダルな理解と生成の両方を扱えるが、通常は単一パスで動作し、出力を反復的に洗練することはない。多くのマルチモーダルタスク、特に複雑な空間構成や複数の相互作用するオブジェクト、変化する指示を伴うタスクでは、指示の分解、中間結果の検証、反復的な修正が必要となる。テストタイムスケーリング(TTS)では、反復的推論のために推論計算リソースを追加割り当てることが言語モデルの性能を大幅に向上させることが実証されているが、このパラダイムを統合マルチモーダルモデルに拡張することは未解決の課題である。本研究では、単一の統合モデルが複数ラウンドにわたって推論、検証、洗練を行うことを可能にするマルチモーダル連鎖思考型テストタイムスケーリングフレームワーク「UniT」を提案する。UniTは、エージェント的なデータ合成、統合モデル訓練、柔軟なテストタイム推論を組み合わせることで、検証、サブゴール分解、コンテンツメモリといった認知的振る舞いを引き出す。主な発見は以下の通りである:(1)短い推論軌跡で訓練された統合モデルは、テスト時に長い推論連鎖へ一般化する、(2)逐次的な連鎖思考推論は、並列サンプリングよりもスケーラブルで計算効率の高いTTS戦略を提供する、(3)生成と編集の軌跡による訓練は、分布外の視覚推論を改善する。これらの結果は、マルチモーダルテストタイムスケーリングが、統合モデルにおける生成と理解の両方を推進する効果的なパラダイムであることを立証する。
English
Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.