ChatPaper.aiChatPaper

Redeneren in de Geest: Dynamische Multimodale Interleaving in Latente Ruimte

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

December 14, 2025
Auteurs: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI

Samenvatting

Recente vooruitgang in Multimodale Large Language Models (MLLMs) heeft cross-modale interpretatie en redenering aanzienlijk verbeterd door Chain-of-Thought (CoT)-redenering in de semantische ruimte te incorporeren. Voortbouwend hierop breiden recente studies het CoT-mechanisme uit naar de visuele modaliteit, waardoor modellen visuele informatie kunnen integreren tijdens het redeneren via externe tools of expliciete beeldgeneratie. Deze methoden blijven echter afhankelijk van expliciete stapsgewijze redenering, een onstabiele interactie tussen perceptie en redenering en aanzienlijke rekenkosten. Geïnspireerd door de menselijke cognitie stellen wij dat denken zich niet lineair ontvouwt, maar via de dynamische verweving van redenering en perceptie in de geest. Gemotiveerd door dit perspectief presenteren wij DMLR, een test-time Dynamic Multimodal Latent Reasoning-raamwerk dat vertrouwensgeleide latente beleidsgradiëntoptimalisatie gebruikt om latente denktokens te verfijnen voor diepgaande redenering. Verder wordt een Dynamische Visuele Injectiestrategie geïntroduceerd, die de meest relevante visuele kenmerken ophaalt bij elke latente denktoken en de set beste visuele patches bijwerkt. De bijgewerkte patches worden vervolgens geïnjecteerd in de latente denktoken om dynamische visueel-textuele verweving te bereiken. Experimenten over zeven multimodale redeneerbenchmarks en diverse modelarchitecturen tonen aan dat DMLR de redeneer- en perceptieprestaties significant verbetert, terwijl een hoge inferentie-efficiëntie behouden blijft.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.
PDF21December 31, 2025