ThinkMorph: Proprietà Emergenti nel Ragionamento a Catena di Pensiero Intervallato Multimodale
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
October 30, 2025
Autori: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI
Abstract
Il ragionamento multimodale richiede una coordinazione iterativa tra linguaggio e visione, ma rimane poco chiaro cosa costituisca una catena di pensiero intervallata significativa. Proponiamo che i pensieri testuali e visivi dovrebbero funzionare come modalità complementari, piuttosto che isomorfe, che avanzano reciprocamente il ragionamento. Guidati da questo principio, costruiamo ThinkMorph, un modello unificato addestrato su 24.000 tracce di ragionamento intervallato di alta qualità, che abbracciano compiti con diverso coinvolgimento visivo. ThinkMorph impara a generare passaggi di ragionamento testo-immagine progressivi che manipolano concretamente il contenuto visivo mantenendo al contempo una logica verbale coerente. Il modello consegue notevoli miglioramenti su benchmark incentrati sulla visione (in media +34,7% rispetto al modello base) e generalizza a compiti fuori dominio, eguagliando o superando modelli linguistici visivi (VLM) più grandi e proprietari. Oltre alle prestazioni, ThinkMorph mostra un'intelligenza multimodale emergente, che include abilità inedite di manipolazione visiva, commutazione adattiva tra modalità di ragionamento e una migliore scalabilità durante il test grazie a pensieri multimodali diversificati. Questi risultati suggeriscono direzioni promettenti per caratterizzare le capacità emergenti dei modelli unificati per il ragionamento multimodale.
English
Multimodal reasoning requires iterative coordination between language and
vision, yet it remains unclear what constitutes a meaningful interleaved chain
of thought. We posit that text and image thoughts should function as
complementary, rather than isomorphic, modalities that mutually advance
reasoning. Guided by this principle, we build ThinkMorph, a unified model
fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with
varying visual engagement. ThinkMorph learns to generate progressive text-image
reasoning steps that concretely manipulate visual content while maintaining
coherent verbal logic. It delivers large gains on vision-centric benchmarks
(averaging 34.7% over the base model) and generalizes to out-of-domain tasks,
matching or surpassing larger and proprietary VLMs. Beyond performance,
ThinkMorph exhibits emergent multimodal intelligence, including unseen visual
manipulation skills, adaptive switching between reasoning modes, and better
test-time scaling through diversified multimodal thoughts.These findings
suggest promising directions for characterizing the emergent capabilities of
unified models for multimodal reasoning.