ChatPaper.aiChatPaper

ThinkMorph: Propriedades Emergentes no Raciocínio em Cadeia de Pensamento Intercalado Multimodal

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

October 30, 2025
Autores: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI

Resumo

O raciocínio multimodal requer uma coordenação iterativa entre linguagem e visão, mas ainda não está claro o que constitui uma cadeia de pensamento intercalada significativa. Postulamos que os pensamentos textuais e visuais devem funcionar como modalidades complementares, e não isomórficas, que avançam mutuamente o raciocínio. Guiados por este princípio, construímos o ThinkMorph, um modelo unificado fine-tunado em 24 mil traços de raciocínio intercalados de alta qualidade, abrangendo tarefas com engajamento visual variável. O ThinkMorph aprende a gerar passos progressivos de raciocínio texto-imagem que manipulam concretamente o conteúdo visual, mantendo ao mesmo tempo uma lógica verbal coerente. Ele produz ganhos significativos em benchmarks centrados na visão (média de 34,7% acima do modelo base) e generaliza para tarefas fora do domínio, equiparando ou superando VLMs maiores e proprietários. Além do desempenho, o ThinkMorph exibe inteligência multimodal emergente, incluindo habilidades de manipulação visual não vistas, comutação adaptativa entre modos de raciocínio e melhor escalabilidade em tempo de teste através de pensamentos multimodais diversificados. Essas descobertas sugerem direções promissoras para caracterizar as capacidades emergentes de modelos unificados para raciocínio multimodal.
English
Multimodal reasoning requires iterative coordination between language and vision, yet it remains unclear what constitutes a meaningful interleaved chain of thought. We posit that text and image thoughts should function as complementary, rather than isomorphic, modalities that mutually advance reasoning. Guided by this principle, we build ThinkMorph, a unified model fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with varying visual engagement. ThinkMorph learns to generate progressive text-image reasoning steps that concretely manipulate visual content while maintaining coherent verbal logic. It delivers large gains on vision-centric benchmarks (averaging 34.7% over the base model) and generalizes to out-of-domain tasks, matching or surpassing larger and proprietary VLMs. Beyond performance, ThinkMorph exhibits emergent multimodal intelligence, including unseen visual manipulation skills, adaptive switching between reasoning modes, and better test-time scaling through diversified multimodal thoughts.These findings suggest promising directions for characterizing the emergent capabilities of unified models for multimodal reasoning.
PDF867February 7, 2026