Imaginação Mental da Máquina: Capacitar o Raciocínio Multimodal com Tokens Visuais Latentes
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Autores: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Resumo
Os modelos de visão e linguagem (VLMs) se destacam na compreensão multimodal, mas sua decodificação baseada apenas em texto os força a verbalizar o raciocínio visual, limitando o desempenho em tarefas que exigem imaginação visual. Tentativas recentes treinam VLMs para renderizar imagens explícitas, mas o extenso pré-treinamento em geração de imagens frequentemente prejudica a capacidade de raciocínio. Inspirados pela forma como os humanos raciocinam com imagens mentais — a construção e manipulação interna de pistas visuais — investigamos se os VLMs podem raciocinar por meio de trajetórias multimodais intercaladas sem produzir imagens explícitas. Para isso, apresentamos um framework de Imaginação Mental de Máquina, denominado Mirage, que amplia a decodificação de VLMs com tokens visuais latentes ao lado do texto comum. Concretamente, sempre que o modelo opta por "pensar visualmente", ele reformula seus estados ocultos como próximos tokens, continuando assim uma trajetória multimodal sem gerar imagens em nível de pixel. Começamos supervisionando os tokens latentes por meio de destilação de embeddings de imagens verdadeiras, depois mudamos para supervisão apenas textual para alinhar a trajetória latente ao objetivo da tarefa. Uma etapa subsequente de aprendizado por reforço aprimora ainda mais a capacidade de raciocínio multimodal. Experimentos em diversos benchmarks demonstram que o Mirage desbloqueia um raciocínio multimodal mais robusto sem a geração explícita de imagens.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.