Immaginazione Mentale della Macchina: Potenziare il Ragionamento Multimodale con Token Visivi Latenti
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Autori: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) eccellono nella comprensione multimodale, tuttavia la loro decodifica basata esclusivamente sul testo li costringe a verbalizzare il ragionamento visivo, limitando le prestazioni nei compiti che richiedono immaginazione visiva. Recenti tentativi hanno addestrato i VLMs a generare immagini esplicite, ma il pesante pre-addestramento per la generazione di immagini spesso ostacola la capacità di ragionamento. Ispirati dal modo in cui gli esseri umani ragionano con immagini mentali - la costruzione e manipolazione interna di segnali visivi - abbiamo indagato se i VLMs possano ragionare attraverso traiettorie multimodali intervallate senza produrre immagini esplicite. A tal fine, presentiamo un framework di Machine Mental Imagery, denominato Mirage, che potenzia la decodifica dei VLMs con token visivi latenti affiancati al testo ordinario. Nello specifico, ogni volta che il modello sceglie di "pensare visivamente", riconverte i suoi stati nascosti in token successivi, continuando così una traiettoria multimodale senza generare immagini a livello di pixel. Inizialmente supervisioniamo i token latenti attraverso la distillazione da embedding di immagini reali, per poi passare a una supervisione basata solo sul testo, in modo che la traiettoria latente si allinei strettamente all'obiettivo del compito. Una successiva fase di apprendimento per rinforzo migliora ulteriormente la capacità di ragionamento multimodale. Esperimenti su diversi benchmark dimostrano che Mirage sblocca un ragionamento multimodale più forte senza la generazione esplicita di immagini.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.