Рассуждения в сознании: динамическое чередование модальностей в латентном пространстве
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
December 14, 2025
Авторы: Chengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили межмодальное понимание и логические рассуждения за счёт внедрения цепочек мыслей (CoT) в семантическом пространстве. Основываясь на этом, современные исследования расширяют механизм CoT на визуальную модальность, позволяя моделям интегрировать зрительную информацию в процессе рассуждений с помощью внешних инструментов или явного генерирования изображений. Однако эти методы остаются зависимыми от явного пошагового рассуждения, нестабильного взаимодействия восприятия и логики и значительных вычислительных затрат. Вдохновляясь человеческим познанием, мы предполагаем, что мышление разворачивается не линейно, а через динамическое чередование рассуждений и восприятия в сознании. Руководствуясь этой перспективой, мы предлагаем DMLR — динамическую мультимодальную систему латентных рассуждений в режиме тестирования, которая использует оптимизацию латентного градиента политики с управлением по уверенности для уточнения латентных токенов мышления с целью углублённого анализа. Кроме того, представлена стратегия динамической визуальной инжекции, которая извлекает наиболее релевантные визуальные признаки на каждом латентном токене мышления и обновляет набор наилучших визуальных патчей. Обновлённые патчи затем внедряются в латентный токен мышления для достижения динамического чередования визуальной и текстовой информации. Эксперименты на семи мультимодальных бенчмарках для оценки логических рассуждений и с использованием различных архитектур моделей демонстрируют, что DMLR значительно улучшает показатели логического анализа и восприятия при сохранении высокой эффективности вывода.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space. Building upon this, recent studies extend the CoT mechanism to the visual modality, enabling models to integrate visual information during reasoning through external tools or explicit image generation. However, these methods remain dependent on explicit step-by-step reasoning, unstable perception-reasoning interaction and notable computational overhead. Inspired by human cognition, we posit that thinking unfolds not linearly but through the dynamic interleaving of reasoning and perception within the mind. Motivated by this perspective, we propose DMLR, a test-time Dynamic Multimodal Latent Reasoning framework that employs confidence-guided latent policy gradient optimization to refine latent think tokens for in-depth reasoning. Furthermore, a Dynamic Visual Injection Strategy is introduced, which retrieves the most relevant visual features at each latent think token and updates the set of best visual patches. The updated patches are then injected into latent think token to achieve dynamic visual-textual interleaving. Experiments across seven multimodal reasoning benchmarks and various model architectures demonstrate that DMLR significantly improves reasoning and perception performance while maintaining high inference efficiency.