ThinkMorph: Propiedades Emergentes en el Razonamiento Encadenado Intercalado Multimodal
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
October 30, 2025
Autores: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI
Resumen
El razonamiento multimodal requiere una coordinación iterativa entre lenguaje y visión, pero aún no está claro qué constituye una cadena de pensamiento intercalada significativa. Postulamos que los pensamientos de texto e imagen deben funcionar como modalidades complementarias, más que isomórficas, que avancen mutuamente el razonamiento. Guiados por este principio, construimos ThinkMorph, un modelo unificado ajustado sobre 24.000 trazas de razonamiento intercalado de alta calidad que abarcan tareas con diferente nivel de compromiso visual. ThinkMorph aprende a generar pasos de razonamiento progresivos texto-imagen que manipulan concretamente el contenido visual mientras mantienen una lógica verbal coherente. Ofrece grandes mejoras en benchmarks centrados en visión (un promedio del 34.7% sobre el modelo base) y generaliza a tareas fuera de dominio, igualando o superando a modelos de lenguaje visual (VLM) más grandes y propietarios. Más allá del rendimiento, ThinkMorph exhibe inteligencia multimodal emergente, incluyendo habilidades de manipulación visual no vistas, conmutación adaptativa entre modos de razonamiento y mejor escalado en tiempo de prueba mediante pensamientos multimodales diversificados. Estos hallazgos sugieren direcciones prometedoras para caracterizar las capacidades emergentes de los modelos unificados para el razonamiento multimodal.
English
Multimodal reasoning requires iterative coordination between language and
vision, yet it remains unclear what constitutes a meaningful interleaved chain
of thought. We posit that text and image thoughts should function as
complementary, rather than isomorphic, modalities that mutually advance
reasoning. Guided by this principle, we build ThinkMorph, a unified model
fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with
varying visual engagement. ThinkMorph learns to generate progressive text-image
reasoning steps that concretely manipulate visual content while maintaining
coherent verbal logic. It delivers large gains on vision-centric benchmarks
(averaging 34.7% over the base model) and generalizes to out-of-domain tasks,
matching or surpassing larger and proprietary VLMs. Beyond performance,
ThinkMorph exhibits emergent multimodal intelligence, including unseen visual
manipulation skills, adaptive switching between reasoning modes, and better
test-time scaling through diversified multimodal thoughts.These findings
suggest promising directions for characterizing the emergent capabilities of
unified models for multimodal reasoning.