ChatPaper.aiChatPaper

마음 속 추론: 잠재 공간에서의 동적 다중 모달 인터리빙

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

December 14, 2025
저자: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI

초록

최근 멀티모달 대규모 언어 모델(MLLMs)의 발전은 의미 공간에서의 사고 연쇄(CoT) 추론을 통합하여 교차 모달 이해 및 추론 능력을 크게 향상시켰습니다. 이를 기반으로 한 최근 연구들은 CoT 메커니즘을 시각 모달리티로 확장하여 외부 도구나 명시적 이미지 생성을 통해 추론 과정에 시각 정보를 통합할 수 있도록 했습니다. 그러나 이러한 방법들은 여전히 명시적인 단계별 추론에 의존하며, 불안정한 지각-추론 상호작용과 상당한 계산 오버헤드라는 한계를 지닙니다. 인간의 인지 과정에서 영감을 받아, 우리는 사고가 선형적으로가 아니라 마음속에서 추론과 지각이 동적으로 교차하며 전개된다고 가정합니다. 이러한 관점에 기반하여, 우리는 테스트 타임에 동작하는 동적 멀티모달 잠재 추론 프레임워크인 DMLR을 제안합니다. DMLR은 신뢰도 기반 잠재 정책 경사 최적화를 사용하여 잠재 생각 토큰(latent think tokens)을 정제하여 심층 추론을 수행합니다. 더 나아가, 각 잠재 생각 토큰에서 가장 관련성 높은 시각 특징을 검색하고 최적의 시각 패치 집합을 업데이트하는 동적 시각 주입 전략(Dynamic Visual Injection Strategy)을 도입합니다. 업데이트된 패치는 이후 잠재 생각 토큰에 주입되어 동적인 시각-텍스트 간 교차를 실현합니다. 7개의 멀티모달 추론 벤치마크와 다양한 모델 아키텍처에서 진행된 실험을 통해 DMLR이 높은 추론 효율성을 유지하면서 추론 및 지각 성능을 크게 향상시킴을 입증했습니다.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.
PDF11December 20, 2025