UniT: Scalabilità Unificata Multimodale del Ragionamento a Catena in Fase di Test

Abstract

I modelli unificati possono gestire sia la comprensione che la generazione multimodale all'interno di un'unica architettura, ma tipicamente operano in un singolo passaggio senza perfezionare iterativamente i propri output. Molti compiti multimodali, specialmente quelli che coinvolgono composizioni spaziali complesse, oggetti multipli in interazione o istruzioni in evoluzione, richiedono la scomposizione delle istruzioni, la verifica dei risultati intermedi e l'apporto di correzioni iterative. Sebbene lo scaling al tempo di test (TTS) abbia dimostrato che l'allocazione di risorse computazionali aggiuntive per il ragionamento iterativo migliori sostanzialmente le prestazioni dei modelli linguistici, estendere questo paradigma ai modelli multimodali unificati rimane una sfida aperta. Introduciamo UniT, un framework per lo scaling al tempo di test con catena di pensiero multimodale che consente a un singolo modello unificato di ragionare, verificare e perfezionare attraverso più round. UniT combina sintesi dati agentica, addestramento unificato del modello e inferenza flessibile al tempo di test per elicitare comportamenti cognitivi inclusi verifica, scomposizione in sottobiettivi e memoria dei contenuti. Le nostre principali scoperte sono: (1) i modelli unificati addestrati su traiettorie di ragionamento brevi generalizzano a catene inferenziali più lunghe al momento del test; (2) il ragionamento sequenziale a catena di pensiero fornisce una strategia TTS più scalabile e computazionalmente efficiente del campionamento parallelo; (3) l'addestramento su traiettorie di generazione e editing migliora il ragionamento visivo fuori distribuzione. Questi risultati stabiliscono lo scaling multimodale al tempo di test come un paradigma efficace per far progredire sia la generazione che la comprensione nei modelli unificati.

English

Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.

UniT: Scalabilità Unificata Multimodale del Ragionamento a Catena in Fase di Test

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Abstract

Support