UniT: Uniforme Multimodale Chain-of-Thought Schaling tijdens Testtijd

Samenvatting

Unificatie modellen kunnen zowel multimodale interpretatie als generatie binnen een enkele architectuur aan, maar werken doorgaans in één keer zonder hun uitvoer iteratief te verfijnen. Veel multimodale taken, vooral die met complexe ruimtelijke composities, meerdere interagerende objecten of evoluerende instructies, vereisen het opdelen van instructies, het verifiëren van tussentijdse resultaten en het maken van iteratieve correcties. Hoewel test-time scaling (TTS) heeft aangetoond dat het toewijzen van extra rekenkracht tijdens inferentie voor iteratief redeneren de prestaties van taalmodellen aanzienlijk verbetert, blijft het uitbreiden van dit paradigma naar unificatie multimodale modellen een open uitdaging. Wij introduceren UniT, een raamwerk voor multimodale chain-of-thought test-time scaling dat een enkel unificatie model in staat stelt om over meerdere rondes te redeneren, verifiëren en verfijnen. UniT combineert agent-gebaseerde datasynthese, unificatie modeltraining en flexibele inferentie tijdens testtijd om cognitief gedrag op te roepen, waaronder verificatie, subdoeldecompositie en inhoudelijk geheugen. Onze belangrijkste bevindingen zijn: (1) unificatie modellen getraind op korte redeneertrajecten generaliseren naar langere inferentieketens tijdens testtijd; (2) sequentiële chain-of-thought redenering biedt een schaalbaardere en rekenzuinigere TTS-strategie dan parallelle sampling; (3) training op generatie- en bewerkingstrajecten verbetert visueel redeneren buiten de verdeling. Deze resultaten vestigen multimodale test-time scaling als een effectief paradigma voor het bevorderen van zowel generatie als interpretatie in unificatie modellen.

English

Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.

UniT: Uniforme Multimodale Chain-of-Thought Schaling tijdens Testtijd

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Samenvatting

Support