ChatPaper.aiChatPaper

ThinkMorph : Propriétés émergentes dans le raisonnement multimodal entrelacé par enchaînement de pensées

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

October 30, 2025
papers.authors: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI

papers.abstract

Le raisonnement multimodal nécessite une coordination itérative entre le langage et la vision, mais il reste difficile de définir ce qui constitue un enchaînement de pensée entrelacé significatif. Nous postulons que les pensées textuelles et visuelles devraient fonctionner comme des modalités complémentaires plutôt qu'isomorphes, qui font progresser mutuellement le raisonnement. Guidés par ce principe, nous construisons ThinkMorph, un modèle unifié affiné sur 24 000 traces de raisonnement entrelacées de haute qualité couvrant des tâches avec des engagements visuels variables. ThinkMorph apprend à générer des étapes de raisonnement texte-image progressives qui manipulent concrètement le contenu visuel tout en maintenant une logique verbale cohérente. Il obtient des gains significatifs sur des benchmarks centrés sur la vision (une moyenne de 34,7 % par rapport au modèle de base) et généralise à des tâches hors domaine, égalant ou surpassant des modèles de langage visuel plus grands et propriétaires. Au-delà des performances, ThinkMorph présente une intelligence multimodale émergente, incluant des compétences de manipulation visuelle inédites, une commutation adaptative entre les modes de raisonnement et une meilleure échelle au moment du test grâce à des pensées multimodales diversifiées. Ces résultats suggèrent des pistes prometteuses pour caractériser les capacités émergentes des modèles unifiés de raisonnement multimodal.
English
Multimodal reasoning requires iterative coordination between language and vision, yet it remains unclear what constitutes a meaningful interleaved chain of thought. We posit that text and image thoughts should function as complementary, rather than isomorphic, modalities that mutually advance reasoning. Guided by this principle, we build ThinkMorph, a unified model fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with varying visual engagement. ThinkMorph learns to generate progressive text-image reasoning steps that concretely manipulate visual content while maintaining coherent verbal logic. It delivers large gains on vision-centric benchmarks (averaging 34.7% over the base model) and generalizes to out-of-domain tasks, matching or surpassing larger and proprietary VLMs. Beyond performance, ThinkMorph exhibits emergent multimodal intelligence, including unseen visual manipulation skills, adaptive switching between reasoning modes, and better test-time scaling through diversified multimodal thoughts.These findings suggest promising directions for characterizing the emergent capabilities of unified models for multimodal reasoning.
PDF807December 2, 2025