Imagerie Mentale Machine : Renforcer le Raisonnement Multimodal avec des Tokens Visuels Latents
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Auteurs: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Résumé
Les modèles vision-langage (VLMs) excellent dans la compréhension multimodale, mais leur décodage basé uniquement sur le texte les oblige à verbaliser leur raisonnement visuel, limitant ainsi leurs performances sur des tâches nécessitant une imagination visuelle. Des tentatives récentes ont cherché à entraîner les VLMs à générer des images explicites, mais le pré-entraînement intensif en génération d'images compromet souvent leur capacité de raisonnement. Inspirés par la manière dont les humains raisonnent avec des images mentales—la construction et la manipulation internes d'indices visuels—nous explorons si les VLMs peuvent raisonner à travers des trajectoires multimodales entrelacées sans produire d'images explicites. À cette fin, nous proposons un cadre de Machine Mental Imagery, baptisé Mirage, qui enrichit le décodage des VLMs avec des tokens visuels latents en plus du texte ordinaire. Concrètement, lorsque le modèle choisit de « penser visuellement », il reformule ses états cachés en tokens suivants, poursuivant ainsi une trajectoire multimodale sans générer d'images au niveau des pixels. En commençant par superviser les tokens latents via une distillation à partir d'embeddings d'images de référence, nous passons ensuite à une supervision basée uniquement sur le texte pour aligner étroitement la trajectoire latente avec l'objectif de la tâche. Une étape d'apprentissage par renforcement renforce ensuite la capacité de raisonnement multimodal. Les expériences sur divers benchmarks démontrent que Mirage débloque un raisonnement multimodal plus puissant sans génération explicite d'images.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.