ChatPaper.aiChatPaper

ThinkMorph:マルチモーダル・インターリーブド連鎖思考推論における創発特性

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

October 30, 2025
著者: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng
cs.AI

要旨

マルチモーダル推論には言語と視覚の反復的な連携が不可欠であるが、意味のあるインターリーブ(交互配置)型の思考連鎖の本質は未解明のままである。我々は、テキストと画像の思考が、互いに同型的ではなく補完的なモダリティとして機能し、推論を相互に推進すべきだと提唱する。この原則に基づき、視覚的関与の程度が異なるタスクにまたがる24Kの高品質なインターリーブ推論トレースでファインチューニングした統一モデルThinkMorphを構築した。ThinkMorphは、一貫した言語的論理を維持しつつ視覚的コンテンツを具体的に操作する、漸進的なテキストと画像による推論ステップを生成することを学習する。これにより、視覚中心ベンチマークでベースモデル比平均34.7%の大幅な性能向上を達成し、ドメイン外タスクにも汎化し、大規模あるいはプロプライエタリな視覚言語モデル(VLM)に匹敵または凌駕する結果を示した。性能を超えて、ThinkMorphは創発的なマルチモーダル知能を発現し、未学習の視覚操作スキル、推論モード間の適応的切り替え、多様化したマルチモーダル思考によるテスト時スケーリングの改善などを示した。これらの知見は、マルチモーダル推論のための統一モデルが持つ創発的能力を特徴付ける有望な方向性を示唆している。
English
Multimodal reasoning requires iterative coordination between language and vision, yet it remains unclear what constitutes a meaningful interleaved chain of thought. We posit that text and image thoughts should function as complementary, rather than isomorphic, modalities that mutually advance reasoning. Guided by this principle, we build ThinkMorph, a unified model fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with varying visual engagement. ThinkMorph learns to generate progressive text-image reasoning steps that concretely manipulate visual content while maintaining coherent verbal logic. It delivers large gains on vision-centric benchmarks (averaging 34.7% over the base model) and generalizes to out-of-domain tasks, matching or surpassing larger and proprietary VLMs. Beyond performance, ThinkMorph exhibits emergent multimodal intelligence, including unseen visual manipulation skills, adaptive switching between reasoning modes, and better test-time scaling through diversified multimodal thoughts.These findings suggest promising directions for characterizing the emergent capabilities of unified models for multimodal reasoning.
PDF807December 2, 2025