Machinele Mentale Beeldvorming: Versterk Multimodale Redenering met Latente Visuele Tokens
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Auteurs: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Samenvatting
Vision-language models (VLMs) blinken uit in multimodale begrip, maar hun tekstgerichte decodering dwingt hen om visuele redenering te verbaliseren, wat de prestaties beperkt bij taken die visuele verbeelding vereisen. Recente pogingen trainen VLMs om expliciete afbeeldingen te genereren, maar de intensieve voorafgaande training voor beeldgeneratie belemmert vaak het redeneervermogen. Geïnspireerd door de manier waarop mensen redeneren met mentale beelden – de interne constructie en manipulatie van visuele aanwijzingen – onderzoeken we of VLMs kunnen redeneren via interleaved multimodale trajecten zonder expliciete afbeeldingen te produceren. Hiertoe presenteren we een Machine Mental Imagery-framework, genaamd Mirage, dat VLM-decodering verrijkt met latente visuele tokens naast gewone tekst. Concreet, wanneer het model ervoor kiest om "visueel te denken", hervormt het zijn verborgen toestanden als volgende tokens, waardoor een multimodaal traject wordt voortgezet zonder pixel-niveau afbeeldingen te genereren. We beginnen met het begeleiden van de latente tokens via distillatie van grondwaarheid-beeldembeddings, waarna we overschakelen naar tekstgerichte begeleiding om het latente traject nauw te laten aansluiten bij het taakdoel. Een daaropvolgende fase van reinforcement learning versterkt verder het multimodale redeneervermogen. Experimenten op diverse benchmarks tonen aan dat Mirage sterker multimodaal redeneren mogelijk maakt zonder expliciete beeldgeneratie.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.