Imaginatieve perceptietokens verbeteren ruimtelijk redeneren in multimodale taalmodellen.

Samenvatting

Visie-taalmodellen (VLM’s) excelleren in veel taken, maar hebben nog steeds moeite met ruimtelijk redeneren wanneer kritieke informatie niet direct waarneembaar is. Veel van dergelijke problemen vereisen een verbeeldend waarnemingsvermogen: het afleiden wat men zou zien vanuit een niet-geziene gezichtshoek, het volgen van paden door geoccludeerde ruimtes, of het integreren van gedeeltelijke waarnemingen in een coherente ruimtelijke representatie. We introduceren Imaginatieve Perceptie-Tokens (IPT), intermediaire perceptuele representaties die externaliseren wat een VLM zou waarnemen onder alternatieve ruimtelijke configuraties, terwijl ze consistent blijven met de waargenomen invoer. Om dit vermogen te bestuderen, formuleren we drie taken: Perspectief Nemen (PET), Padvolgen (PT) en Multiview Tellen (MVC), en construeren we datasets van ongeveer 20.000 voorbeelden met grondwaarheidsimaginaties, antwoorden en evaluatiebenchmarks. Met behulp van het uniforme VLM BAGEL als ruggengraat, verbetert IPT-supervisie consequent het ruimtelijk redeneren en presteert het vaak beter dan tekstuele gedachteketentraining, zelfs zonder het genereren van afbeeldingen tijdens de inferentie. Op MVC verbetert IPT de nauwkeurigheid met 3,4% en behaalt het concurrerende prestaties met sterke closed-source modellen op PT. Verder vinden we dat het combineren van IPT en label-only supervisie extra winst oplevert, terwijl tekstuele gedachteketen de prestaties aanzienlijk kan verslechteren, wat wijst op een modaliteitsmismatch wanneer ruimtelijke berekening door taal wordt geforceerd. Over het geheel genomen biedt IPT een principieel supervisiesignaal voor het redeneren over niet-waargenomen ruimtelijke structuur, wat de generalisatie verbetert terwijl er interpreteerbare intermediaire representaties worden geproduceerd.

English

Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.