ChatPaper.aiChatPaper

UniT : Mise à l'échelle unifiée et multimodale de la chaîne de raisonnement en phase de test

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

February 12, 2026
papers.authors: Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu
cs.AI

papers.abstract

Les modèles unifiés peuvent traiter à la fois la compréhension et la génération multimodales au sein d'une même architecture, mais ils fonctionnent généralement en une seule passe sans affiner itérativement leurs résultats. De nombreuses tâches multimodales, en particulier celles impliquant des compositions spatiales complexes, des objets multiples en interaction ou des instructions évolutives, nécessitent de décomposer les instructions, de vérifier les résultats intermédiaires et d'effectuer des corrections itératives. Si la mise à l'échelle au moment du test (TTS) a démontré que l'allocation de ressources de calcul supplémentaires pour un raisonnement itératif améliore considérablement les performances des modèles de langage, l'extension de ce paradigme aux modèles multimodaux unifiés reste un défi ouvert. Nous présentons UniT, un cadre pour la mise à l'échelle test-time avec chaîne de pensée multimodale, permettant à un modèle unifié unique de raisonner, vérifier et affiner sur plusieurs rounds. UniT combine une synthèse de données agentique, un entraînement de modèle unifié et une inférence flexible au moment du test pour susciter des comportements cognitifs incluant la vérification, la décomposition en sous-buts et la mémorisation de contenu. Nos principales conclusions sont : (1) les modèles unifiés entraînés sur de courtes trajectoires de raisonnement généralisent à des chaînes d'inférence plus longues lors du test ; (2) le raisonnement séquentiel par chaîne de pensée offre une stratégie TTS plus évolutive et économe en calcul que l'échantillonnage parallèle ; (3) l'entraînement sur des trajectoires de génération et d'édition améliore le raisonnement visuel hors distribution. Ces résultats établissent la mise à l'échelle test-time multimodale comme un paradigme efficace pour faire progresser à la fois la génération et la compréhension dans les modèles unifiés.
English
Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.
PDF131February 19, 2026