心内推論:潜在空間における動的マルチモーダルインタリービング
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
著者: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLM)の発展は、意味空間における連鎖的思考(Chain-of-Thought: CoT)推論を組み込むことで、異種モダリティ間の理解と推論能力を大幅に向上させてきた。この流れを受け、最近の研究ではCoTメカニズムを視覚モダリティに拡張し、外部ツールや明示的な画像生成を通じて推論中に視覚情報を統合する手法が提案されている。しかし、これらの手法は依然として明示的な段階的推論への依存、不安定な知覚‐推論インタラクション、および顕著な計算コストといった課題を抱えている。人間の認知プロセスに着想を得て、我々は思考が直線的ではなく、心の中での推論と知覚の動的な交互作用によって展開されると考える。この視点に基づき、本論文ではDMLR(テスト時動的マルチモーダル潜在推論フレームワーク)を提案する。この枠組みでは、信頼度誘導型潜在ポリシー勾配最適化を用いて潜在思考トークンを精緻化し、深い推論を実現する。さらに、動的視覚注入戦略を導入し、各潜在思考トークンにおいて最も関連性の高い視覚特徴を検索し、最適な視覚パッチの集合を更新する。更新されたパッチは潜在思考トークンに注入され、動的な視覚‐テキストの交互作用を実現する。7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャを用いた実験により、DMLRが高い推論効率を維持しつつ、推論性能と知覚性能を大幅に改善することが実証された。
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.