Machinele Mentale Beeldvorming: Versterk Multimodale Redenering met Latente Visuele Tokens

Samenvatting

Vision-language models (VLMs) blinken uit in multimodale begrip, maar hun tekstgerichte decodering dwingt hen om visuele redenering te verbaliseren, wat de prestaties beperkt bij taken die visuele verbeelding vereisen. Recente pogingen trainen VLMs om expliciete afbeeldingen te genereren, maar de intensieve voorafgaande training voor beeldgeneratie belemmert vaak het redeneervermogen. Geïnspireerd door de manier waarop mensen redeneren met mentale beelden – de interne constructie en manipulatie van visuele aanwijzingen – onderzoeken we of VLMs kunnen redeneren via interleaved multimodale trajecten zonder expliciete afbeeldingen te produceren. Hiertoe presenteren we een Machine Mental Imagery-framework, genaamd Mirage, dat VLM-decodering verrijkt met latente visuele tokens naast gewone tekst. Concreet, wanneer het model ervoor kiest om "visueel te denken", hervormt het zijn verborgen toestanden als volgende tokens, waardoor een multimodaal traject wordt voortgezet zonder pixel-niveau afbeeldingen te genereren. We beginnen met het begeleiden van de latente tokens via distillatie van grondwaarheid-beeldembeddings, waarna we overschakelen naar tekstgerichte begeleiding om het latente traject nauw te laten aansluiten bij het taakdoel. Een daaropvolgende fase van reinforcement learning versterkt verder het multimodale redeneervermogen. Experimenten op diverse benchmarks tonen aan dat Mirage sterker multimodaal redeneren mogelijk maakt zonder expliciete beeldgeneratie.

English

Vision-language models (VLMs) excel at multimodal understanding, yet their text-only decoding forces them to verbalize visual reasoning, limiting performance on tasks that demand visual imagination. Recent attempts train VLMs to render explicit images, but the heavy image-generation pre-training often hinders the reasoning ability. Inspired by the way humans reason with mental imagery-the internal construction and manipulation of visual cues-we investigate whether VLMs can reason through interleaved multimodal trajectories without producing explicit images. To this end, we present a Machine Mental Imagery framework, dubbed as Mirage, which augments VLM decoding with latent visual tokens alongside ordinary text. Concretely, whenever the model chooses to ``think visually'', it recasts its hidden states as next tokens, thereby continuing a multimodal trajectory without generating pixel-level images. Begin by supervising the latent tokens through distillation from ground-truth image embeddings, we then switch to text-only supervision to make the latent trajectory align tightly with the task objective. A subsequent reinforcement learning stage further enhances the multimodal reasoning capability. Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger multimodal reasoning without explicit image generation.

Machinele Mentale Beeldvorming: Versterk Multimodale Redenering met Latente Visuele Tokens

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Samenvatting

Support