Ragionare nella Mente: Intercalazione Multimodale Dinamica nello Spazio Latente
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
Autori: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno significativamente migliorato la comprensione e il ragionamento cross-modale incorporando il ragionamento a Catena del Pensiero (CoT) nello spazio semantico. Sulla base di ciò, studi recenti estendono il meccanismo CoT alla modalità visiva, consentendo ai modelli di integrare informazioni visive durante il ragionamento attraverso strumenti esterni o la generazione esplicita di immagini. Tuttavia, questi metodi rimangono dipendenti da un ragionamento esplicito passo-passo, da un'interazione percezione-ragionamento instabile e da un sovraccarico computazionale significativo. Ispirati dalla cognizione umana, ipotizziamo che il pensiero si sviluppi non in modo lineare, ma attraverso l'alternanza dinamica di ragionamento e percezione all'interno della mente. Motivati da questa prospettiva, proponiamo DMLR, un framework di Ragionamento Latente Multimodale Dinamico a tempo di test che impiega un'ottimizzazione del gradiente della politica latente guidata dalla confidenza per affinare i token di pensiero latente per un ragionamento approfondito. Inoltre, viene introdotta una Strategia di Iniezione Visiva Dinamica, che recupera le caratteristiche visive più rilevanti ad ogni token di pensiero latente e aggiorna l'insieme delle migliori patch visive. Le patch aggiornate vengono quindi iniettate nel token di pensiero latente per ottenere un'alternanza dinamica visivo-testuale. Esperimenti condotti su sette benchmark di ragionamento multimodale e varie architetture di modelli dimostrano che DMLR migliora significativamente le prestazioni di ragionamento e percezione mantenendo un'elevata efficienza inferenziale.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.