ThinkMorph: Emergente Eigenschaften in multimodaler, verschachtelter Gedankenketten-Begründung
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
October 30, 2025
papers.authors: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI
papers.abstract
Multimodales Denken erfordert eine iterative Koordination zwischen Sprache und Vision, doch es bleibt unklar, was eine sinnvolle verzahnte Gedankenkette ausmacht. Wir postulieren, dass Text- und Bildgedanken als komplementäre, anstatt isomorphe, Modalitäten fungieren sollten, die sich gegenseitig im Denkprozess voranbringen. Angeleitet von diesem Prinzip entwickeln wir ThinkMorph, ein vereinheitlichtes Modell, das auf 24.000 hochwertigen, verzahnten Denkspuren feinabgestimmt wurde und Aufgaben mit unterschiedlichem visuellem Engagement umspannt. ThinkMorph lernt, progressive Text-Bild-Denk schritte zu generieren, die visuelle Inhalte konkret manipulieren und dabei eine kohärente verbale Logik beibehalten. Es erzielt große Verbesserungen auf visuell-zentrierten Benchmarks (im Durchschnitt 34,7 % gegenüber dem Basismodell) und verallgemeinert auf domainsfremde Aufgaben, wobei es größere und proprietäre VLMs erreicht oder übertrifft. Über die Leistung hinaus zeigt ThinkMorph emergente multimodale Intelligenz, einschließlich ungesehener visueller Manipulationsfähigkeiten, adaptivem Wechsel zwischen Denkmodi und besserer Skalierung zur Testzeit durch diversifizierte multimodale Gedanken. Diese Ergebnisse deuten auf vielversprechende Wege hin, die emergenten Fähigkeiten vereinheitlichter Modelle für multimodales Denken zu charakterisieren.
English
Multimodal reasoning requires iterative coordination between language and
vision, yet it remains unclear what constitutes a meaningful interleaved chain
of thought. We posit that text and image thoughts should function as
complementary, rather than isomorphic, modalities that mutually advance
reasoning. Guided by this principle, we build ThinkMorph, a unified model
fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with
varying visual engagement. ThinkMorph learns to generate progressive text-image
reasoning steps that concretely manipulate visual content while maintaining
coherent verbal logic. It delivers large gains on vision-centric benchmarks
(averaging 34.7% over the base model) and generalizes to out-of-domain tasks,
matching or surpassing larger and proprietary VLMs. Beyond performance,
ThinkMorph exhibits emergent multimodal intelligence, including unseen visual
manipulation skills, adaptive switching between reasoning modes, and better
test-time scaling through diversified multimodal thoughts.These findings
suggest promising directions for characterizing the emergent capabilities of
unified models for multimodal reasoning.