Raisonnement au sein de l'esprit : Entrelacement multimodal dynamique dans l'espace latent
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
papers.authors: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
papers.abstract
Les progrès récents des modèles de langage multimodaux (MLLM) ont considérablement amélioré la compréhension et le raisonnement intermodaux en intégrant un raisonnement en chaîne de pensée (CoT) dans l'espace sémantique. Sur cette base, des études récentes étendent le mécanisme CoT à la modalité visuelle, permettant aux modèles d'intégrer des informations visuelles durant le raisonnement via des outils externes ou une génération explicite d'images. Cependant, ces méthodes restent dépendantes d'un raisonnement pas-à-pas explicite, d'une interaction perception-raisonnement instable et d'une surcharge computationnelle notable. Inspirés par la cognition humaine, nous postulons que la pensée se déroule non pas linéairement, mais par l'entrelacement dynamique du raisonnement et de la perception au sein de l'esprit. Motivés par cette perspective, nous proposons DMLR, un cadre de raisonnement latent multimodal dynamique en temps de test, qui utilise une optimisation par gradient de politique latente guidée par la confiance pour affiner des tokens de pensée latente en vue d'un raisonnement approfondi. Par ailleurs, une stratégie d'injection visuelle dynamique est introduite, qui récupère les caractéristiques visuelles les plus pertinentes à chaque token de pensée latente et met à jour l'ensemble des meilleurs patchs visuels. Les patchs mis à jour sont ensuite injectés dans le token de pensée latente pour réaliser un entrelacement visuel-textuel dynamique. Les expériences menées sur sept benchmarks de raisonnement multimodal et diverses architectures de modèles démontrent que DMLR améliore significativement les performances de raisonnement et de perception tout en maintenant une haute efficacité d'inférence.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.