UniT: Escalamento Unificado Multimodal de Cadeia de Raciocínio em Tempo de Teste

Resumo

Os modelos unificados podem lidar tanto com a compreensão quanto com a geração multimodal numa única arquitetura, mas geralmente operam num único passo, sem refinar iterativamente as suas saídas. Muitas tarefas multimodais, especialmente as que envolvem composições espaciais complexas, múltiplos objetos em interação ou instruções em evolução, exigem a decomposição de instruções, a verificação de resultados intermédios e a realização de correções iterativas. Embora a escala no momento do teste (test-time scaling - TTS) tenha demonstrado que a alocação de capacidade computacional adicional para raciocínio iterativo melhora substancialmente o desempenho dos modelos de linguagem, estender este paradigma aos modelos multimodais unificados continua a ser um desafio em aberto. Apresentamos a UniT, uma estrutura para escala no momento do teste com cadeia de pensamento multimodal, que permite a um único modelo unificado raciocinar, verificar e refinar ao longo de múltiplas rondas. A UniT combina síntese de dados agentica, treino de modelo unificado e inferência flexível no momento do teste para eliciar comportamentos cognitivos, incluindo verificação, decomposição de subobjetivos e memória de conteúdo. As nossas principais conclusões são: (1) modelos unificados treinados em trajetórias de raciocínio curtas generalizam para cadeias de inferência mais longas no momento do teste; (2) o raciocínio sequencial por cadeia de pensamento fornece uma estratégia de TTS mais escalável e computacionalmente eficiente do que a amostragem paralela; (3) o treino em trajetórias de geração e edição melhora o raciocínio visual fora da distribuição. Estes resultados estabelecem a escala no momento do teste multimodal como um paradigma eficaz para avançar tanto a geração quanto a compreensão em modelos unificados.

English

Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.

UniT: Escalamento Unificado Multimodal de Cadeia de Raciocínio em Tempo de Teste

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Resumo

Support