Verbeelding Helpt bij Visueel Redeneren, Maar Nog Niet in de Latente Ruimte
Imagination Helps Visual Reasoning, But Not Yet in Latent Space
February 26, 2026
Auteurs: You Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun
cs.AI
Samenvatting
Latente visuele redenering heeft als doel het verbeeldingsproces van de mens na te bootsen door te mediteren via de verborgen toestanden van Multimodale Grote Taalmodellen. Hoewel erkend als een veelbelovend paradigma voor visuele redenering, blijven de onderliggende mechanismen die de effectiviteit ervan drijven onduidelijk. Gemotiveerd om de ware bron van de doeltreffendheid te ontrafelen, onderzoeken we de geldigheid van latente redenering met behulp van Causale Mediatie-analyse. Wij modelleren het proces als een causale keten: de invoer als de behandeling, de latente tokens als de mediator en het uiteindelijke antwoord als de uitkomst. Onze bevindingen onthullen twee kritieke verbroken verbindingen: (a) Invoer-Latente Verbinding: dramatische verstoringen van de invoer resulteren in verwaarloosbare veranderingen in de latente tokens, wat suggereert dat latente tokens niet effectief aandacht besteden aan de invoerreeks. (b) Latente-Antwoord Verbinding: verstoringen van de latente tokens hebben minimaal effect op het uiteindelijke antwoord, wat wijst op het beperkte causale effect dat latente tokens op de uitkomst uitoefenen. Verder onthult uitgebreide probing-analyse dat latente tokens beperkte visuele informatie coderen en een hoge gelijkenis vertonen. Bijgevolg betwisten we de noodzaak van latente redenering en stellen we een eenvoudig alternatief voor genaamd CapImagine, dat het model leert expliciet te verbeelden met behulp van tekst. Experimenten op visie-gecentreerde benchmarks tonen aan dat CapImagine significant beter presteert dan complexe latentieruimte-baselines, wat het superieure potentieel van visuele redenering door expliciete verbeelding benadrukt.
English
Latent visual reasoning aims to mimic human's imagination process by meditating through hidden states of Multimodal Large Language Models. While recognized as a promising paradigm for visual reasoning, the underlying mechanisms driving its effectiveness remain unclear. Motivated to demystify the true source of its efficacy, we investigate the validity of latent reasoning using Causal Mediation Analysis. We model the process as a causal chain: the input as the treatment, the latent tokens as the mediator, and the final answer as the outcome. Our findings uncover two critical disconnections: (a) Input-Latent Disconnect: dramatic perturbations on the input result in negligible changes to the latent tokens, suggesting that latent tokens do not effectively attend to the input sequence. (b) Latent-Answer Disconnect: perturbations on the latent tokens yield minimal impact on the final answer, indicating the limited causal effect latent tokens imposing on the outcome. Furthermore, extensive probing analysis reveals that latent tokens encode limited visual information and exhibit high similarity. Consequently, we challenge the necessity of latent reasoning and propose a straightforward alternative named CapImagine, which teaches the model to explicitly imagine using text. Experiments on vision-centric benchmarks show that CapImagine significantly outperforms complex latent-space baselines, highlighting the superior potential of visual reasoning through explicit imagination.