ThinkMorph: Opkomende Eigenschappen in Multimodale Dooreengevlochten Redeneerketens
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
October 30, 2025
Auteurs: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI
Samenvatting
Multimodale redenering vereist een iteratieve coördinatie tussen taal en visie, maar het blijft onduidelijk wat een zinvolle verweven denkketen vormt. Wij stellen dat tekst- en beeldgedachten complementair moeten functioneren in plaats van isomorf, als modaliteiten die elkaar wederzijds vooruithelpen bij het redeneren. Op basis van dit principe bouwen we ThinkMorph, een uniform model dat is afgestemd op 24K hoogwaardige verweven redeneersporen, afkomstig van taken met uiteenlopende visuele betrokkenheid. ThinkMorph leert progressieve tekst-beeldredeneringsstappen te genereren die visuele inhoud concreet manipuleren terwijl een coherente verbale logica behouden blijft. Het behaalt grote vooruitgang op visiegerichte benchmarks (gemiddeld 34,7% boven het basismodel) en generaliseert naar taken buiten het domein, waarbij het grotere en propriëtaire VLMs evenaart of overtreft. Naast prestaties vertoont ThinkMorph emergent multimodaal inzicht, waaronder onzichtbare visuele manipulatievaardigheden, adaptief schakelen tussen redeneermodi en betere schaalbaarheid tijdens testen door gediversifieerde multimodale gedachten. Deze bevindingen wijzen op veelbelovende richtingen voor het karakteriseren van de emergentiecapaciteiten van uniforme modellen voor multimodale redenering.
English
Multimodal reasoning requires iterative coordination between language and
vision, yet it remains unclear what constitutes a meaningful interleaved chain
of thought. We posit that text and image thoughts should function as
complementary, rather than isomorphic, modalities that mutually advance
reasoning. Guided by this principle, we build ThinkMorph, a unified model
fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with
varying visual engagement. ThinkMorph learns to generate progressive text-image
reasoning steps that concretely manipulate visual content while maintaining
coherent verbal logic. It delivers large gains on vision-centric benchmarks
(averaging 34.7% over the base model) and generalizes to out-of-domain tasks,
matching or surpassing larger and proprietary VLMs. Beyond performance,
ThinkMorph exhibits emergent multimodal intelligence, including unseen visual
manipulation skills, adaptive switching between reasoning modes, and better
test-time scaling through diversified multimodal thoughts.These findings
suggest promising directions for characterizing the emergent capabilities of
unified models for multimodal reasoning.