Raciocínio Dentro da Mente: Intercalação Multimodal Dinâmica no Espaço Latente

Resumo

Os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) melhoraram significativamente a compreensão e o raciocínio cross-modal através da incorporação do raciocínio em Cadeia de Pensamento (CoT) no espaço semântico. Com base nisso, estudos recentes estendem o mecanismo CoT para a modalidade visual, permitindo que os modelos integrem informações visuais durante o raciocínio por meio de ferramentas externas ou geração explícita de imagens. No entanto, esses métodos permanecem dependentes de raciocínio explícito passo a passo, de uma interação instável entre percepção e raciocínio e de uma sobrecarga computacional significativa. Inspirados pela cognição humana, postulamos que o pensamento se desdobra não linearmente, mas através do entrelaçamento dinâmico entre raciocínio e percepção na mente. Motivados por esta perspectiva, propomos o DMLR, uma estrutura de Raciocínio Latente Multimodal Dinâmico em tempo de teste que emprega uma otimização de gradiente de política latente guiada por confiança para refinar tokens de pensamento latente para um raciocínio aprofundado. Além disso, é introduzida uma Estratégia Dinâmica de Injeção Visual, que recupera as características visuais mais relevantes em cada token de pensamento latente e atualiza o conjunto dos melhores segmentos visuais (patches). Os segmentos atualizados são então injetados no token de pensamento latente para alcançar um entrelaçamento dinâmico visual-textual. Experimentos realizados em sete benchmarks de raciocínio multimodal e várias arquiteturas de modelo demonstram que o DMLR melhora significativamente o desempenho do raciocínio e da percepção, mantendo alta eficiência de inferência.

English

Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.

Raciocínio Dentro da Mente: Intercalação Multimodal Dinâmica no Espaço Latente

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Resumo

Support