Razonando Dentro de la Mente: Entrelazado Multimodal Dinámico en el Espacio Latente
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
Autores: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
Resumen
Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLMs) han mejorado significativamente la comprensión y el razonamiento cross-modal mediante la incorporación del razonamiento en Cadena de Pensamiento (CoT) en el espacio semántico. Basándose en esto, estudios recientes extienden el mecanismo CoT a la modalidad visual, permitiendo a los modelos integrar información visual durante el razonamiento mediante herramientas externas o generación explícita de imágenes. Sin embargo, estos métodos siguen dependiendo de un razonamiento explícito paso a paso, presentan una interacción percepción-razonamiento inestable y un notable sobrecosto computacional. Inspirados por la cognición humana, postulamos que el pensamiento se desarrolla no de forma lineal, sino a través de la intercalación dinámica del razonamiento y la percepción dentro de la mente. Motivados por esta perspectiva, proponemos DMLR, un marco de Razonamiento Latente Multimodal Dinámico en tiempo de prueba que emplea una optimización de gradiente de política latente guiada por confianza para refinar tokens de pensamiento latente y lograr un razonamiento en profundidad. Además, se introduce una Estrategia de Inyección Visual Dinámica, que recupera las características visuales más relevantes en cada token de pensamiento latente y actualiza el conjunto de los mejores parches visuales. Los parches actualizados se inyectan luego en el token de pensamiento latente para lograr una intercalación visual-textual dinámica. Los experimentos realizados en siete benchmarks de razonamiento multimodal y varias arquitecturas de modelo demuestran que DMLR mejora significativamente el rendimiento de razonamiento y percepción, manteniendo al mismo tiempo una alta eficiencia inferencial.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.