Imaginação Mental da Máquina: Capacitar o Raciocínio Multimodal com Tokens Visuais Latentes

Resumo

Os modelos de visão e linguagem (VLMs) se destacam na compreensão multimodal, mas sua decodificação baseada apenas em texto os força a verbalizar o raciocínio visual, limitando o desempenho em tarefas que exigem imaginação visual. Tentativas recentes treinam VLMs para renderizar imagens explícitas, mas o extenso pré-treinamento em geração de imagens frequentemente prejudica a capacidade de raciocínio. Inspirados pela forma como os humanos raciocinam com imagens mentais — a construção e manipulação interna de pistas visuais — investigamos se os VLMs podem raciocinar por meio de trajetórias multimodais intercaladas sem produzir imagens explícitas. Para isso, apresentamos um framework de Imaginação Mental de Máquina, denominado Mirage, que amplia a decodificação de VLMs com tokens visuais latentes ao lado do texto comum. Concretamente, sempre que o modelo opta por "pensar visualmente", ele reformula seus estados ocultos como próximos tokens, continuando assim uma trajetória multimodal sem gerar imagens em nível de pixel. Começamos supervisionando os tokens latentes por meio de destilação de embeddings de imagens verdadeiras, depois mudamos para supervisão apenas textual para alinhar a trajetória latente ao objetivo da tarefa. Uma etapa subsequente de aprendizado por reforço aprimora ainda mais a capacidade de raciocínio multimodal. Experimentos em diversos benchmarks demonstram que o Mirage desbloqueia um raciocínio multimodal mais robusto sem a geração explícita de imagens.

English

Vision-language models (VLMs) excel at multimodal understanding, yet their text-only decoding forces them to verbalize visual reasoning, limiting performance on tasks that demand visual imagination. Recent attempts train VLMs to render explicit images, but the heavy image-generation pre-training often hinders the reasoning ability. Inspired by the way humans reason with mental imagery-the internal construction and manipulation of visual cues-we investigate whether VLMs can reason through interleaved multimodal trajectories without producing explicit images. To this end, we present a Machine Mental Imagery framework, dubbed as Mirage, which augments VLM decoding with latent visual tokens alongside ordinary text. Concretely, whenever the model chooses to ``think visually'', it recasts its hidden states as next tokens, thereby continuing a multimodal trajectory without generating pixel-level images. Begin by supervising the latent tokens through distillation from ground-truth image embeddings, we then switch to text-only supervision to make the latent trajectory align tightly with the task objective. A subsequent reinforcement learning stage further enhances the multimodal reasoning capability. Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger multimodal reasoning without explicit image generation.

Imaginação Mental da Máquina: Capacitar o Raciocínio Multimodal com Tokens Visuais Latentes

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Resumo

Support