Maschinelle mentale Bildgebung: Multimodales Denken mit latenten visuellen Tokens ermöglichen
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
June 20, 2025
Autoren: Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) zeichnen sich durch multimodales Verständnis aus, doch ihre rein textbasierte Dekodierung zwingt sie dazu, visuelle Schlussfolgerungen zu verbalisieren, was ihre Leistung bei Aufgaben, die visuelle Vorstellungskraft erfordern, einschränkt. Jüngste Ansätze trainieren VLMs darauf, explizite Bilder zu erzeugen, doch die umfangreiche Vorabschulung zur Bildgenerierung beeinträchtigt oft die Fähigkeit zum logischen Schlussfolgern. Inspiriert von der Art und Weise, wie Menschen mit mentalen Bildern – der internen Konstruktion und Manipulation visueller Hinweise – schlussfolgern, untersuchen wir, ob VLMs durch verschränkte multimodale Trajektorien schlussfolgern können, ohne explizite Bilder zu erzeugen. Zu diesem Zweck stellen wir ein Framework für maschinelle mentale Bilder vor, das wir Mirage nennen und das die VLM-Dekodierung mit latenten visuellen Tokens neben gewöhnlichem Text erweitert. Konkret rekonstruiert das Modell seine verborgenen Zustände als nächste Tokens, wenn es sich entscheidet, „visuell zu denken“, und setzt so eine multimodale Trajektorie fort, ohne pixelgenaue Bilder zu erzeugen. Zunächst werden die latenten Tokens durch Distillation aus Ground-Truth-Bildembeddings überwacht, dann wird auf rein textbasierte Überwachung umgestellt, um die latente Trajektorie eng an das Aufgabenobjekt anzupassen. Eine anschließende Verstärkungslernphase verbessert die multimodale Schlussfolgerungsfähigkeit weiter. Experimente auf verschiedenen Benchmarks zeigen, dass Mirage eine stärkere multimodale Schlussfolgerungsfähigkeit ohne explizite Bildgenerierung freisetzt.
English
Vision-language models (VLMs) excel at multimodal understanding, yet their
text-only decoding forces them to verbalize visual reasoning, limiting
performance on tasks that demand visual imagination. Recent attempts train VLMs
to render explicit images, but the heavy image-generation pre-training often
hinders the reasoning ability. Inspired by the way humans reason with mental
imagery-the internal construction and manipulation of visual cues-we
investigate whether VLMs can reason through interleaved multimodal trajectories
without producing explicit images. To this end, we present a Machine Mental
Imagery framework, dubbed as Mirage, which augments VLM decoding with latent
visual tokens alongside ordinary text. Concretely, whenever the model chooses
to ``think visually'', it recasts its hidden states as next tokens, thereby
continuing a multimodal trajectory without generating pixel-level images. Begin
by supervising the latent tokens through distillation from ground-truth image
embeddings, we then switch to text-only supervision to make the latent
trajectory align tightly with the task objective. A subsequent reinforcement
learning stage further enhances the multimodal reasoning capability.
Experiments on diverse benchmarks demonstrate that Mirage unlocks stronger
multimodal reasoning without explicit image generation.