ChatPaper.aiChatPaper

Машинное ментальное воображение: усиление мультимодального мышления с помощью латентных визуальных токенов

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

June 20, 2025
Авторы: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI

Аннотация

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты в мультимодальном понимании, однако их декодирование, ограниченное текстом, вынуждает их вербализовать визуальное мышление, что снижает производительность на задачах, требующих визуального воображения. Недавние попытки обучить VLMs генерировать явные изображения часто приводят к ухудшению способности к рассуждению из-за ресурсоемкого предварительного обучения генерации изображений. Вдохновленные тем, как люди рассуждают с использованием ментальных образов — внутреннего построения и манипулирования визуальными подсказками, — мы исследуем, могут ли VLMs рассуждать через чередующиеся мультимодальные траектории без создания явных изображений. С этой целью мы представляем фреймворк Machine Mental Imagery, названный Mirage, который дополняет декодирование VLMs скрытыми визуальными токенами наряду с обычным текстом. Конкретно, когда модель решает «мыслить визуально», она преобразует свои скрытые состояния в следующие токены, тем самым продолжая мультимодальную траекторию без генерации изображений на уровне пикселей. На начальном этапе скрытые токены обучаются с использованием дистилляции из встраиваний эталонных изображений, после чего переходят к обучению только на тексте, чтобы скрытая траектория тесно соответствовала цели задачи. Последующий этап обучения с подкреплением дополнительно усиливает способность к мультимодальному рассуждению. Эксперименты на различных бенчмарках показывают, что Mirage раскрывает более сильное мультимодальное рассуждение без явной генерации изображений.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their text-only decoding forces them to verbalize visual reasoning, limiting performance on tasks that demand visual imagination. Recent attempts train VLMs to render explicit images, but the heavy image-generation pre-training often hinders the reasoning ability. Inspired by the way humans reason with mental imagery-the internal construction and manipulation of visual cues-we investigate whether VLMs can reason through interleaved multimodal trajectories without producing explicit images. To this end, we present a Machine Mental Imagery framework, dubbed as Mirage, which augments VLM decoding with latent visual tokens alongside ordinary text. Concretely, whenever the model chooses to ``think visually'', it recasts its hidden states as next tokens, thereby continuing a multimodal trajectory without generating pixel-level images. Begin by supervising the latent tokens through distillation from ground-truth image embeddings, we then switch to text-only supervision to make the latent trajectory align tightly with the task objective. A subsequent reinforcement learning stage further enhances the multimodal reasoning capability. Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger multimodal reasoning without explicit image generation.
PDF142June 23, 2025