Denken im Geist: Dynamische multimodale Verflechtung im latenten Raum
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
papers.authors: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben das cross-modale Verständnis und die Schlussfolgerung durch die Integration von Chain-of-Thought (CoT)-Reasoning im semantischen Raum erheblich verbessert. Darauf aufbauend erweitern neuere Studien den CoT-Mechanismus auf die visuelle Modalität, wodurch Modelle in der Lage sind, visuelle Informationen während des Reasoning-Prozesses durch externe Werkzeuge oder explizite Bildgenerierung zu integrieren. Diese Methoden bleiben jedoch abhängig von explizitem schrittweisem Reasoning, instabiler Interaktion zwischen Wahrnehmung und Reasoning und erheblichem Rechenaufwand. Inspiriert von der menschlichen Kognition postulieren wir, dass sich Denken nicht linear, sondern durch dynamisches Verschachteln von Reasoning und Wahrnehmung im Geist entfaltet. Ausgehend von dieser Perspektive schlagen wir DMLR vor, ein Dynamic Multimodal Latent Reasoning Framework zur Testzeit, das konfidenzgesteuerte latente Policy-Gradienten-Optimierung einsetzt, um latente Denk-Tokens für tiefgehendes Reasoning zu verfeinern. Darüber hinaus wird eine Dynamic Visual Injection Strategy eingeführt, die die relevantesten visuellen Merkmale für jedes latente Denk-Token abruft und den Satz der besten visuellen Patches aktualisiert. Die aktualisierten Patches werden dann in das latente Denk-Token injiziert, um eine dynamische visuell-textuelle Verschachtelung zu erreichen. Experimente über sieben multimodale Reasoning-Benchmarks und verschiedene Modellarchitekturen hinweg demonstrieren, dass DMLR die Reasoning- und Wahrnehmungsleistung signifikant verbessert und dabei eine hohe Inferenzeffizienz beibehält.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.