Imaginative Wahrnehmungstoken verbessern räumliches Denken in multimodalen Sprachmodellen.

Zusammenfassung

Vision-Sprachmodelle (VLMs) zeichnen sich bei vielen Aufgaben aus, haben jedoch weiterhin Schwierigkeiten mit räumlichem Denken, wenn kritische Informationen nicht direkt beobachtbar sind. Viele solcher Probleme erfordern imaginative Wahrnehmung: das Erschließen dessen, was aus einer nicht sichtbaren Perspektive zu sehen wäre, das Verfolgen von Pfaden durch verdeckte Räume oder das Integrieren partieller Beobachtungen in eine kohärente räumliche Repräsentation. Wir führen Imaginative Perception Tokens (IPT) ein – intermediate perzeptuelle Repräsentationen, die externalisieren, was ein VLM unter alternativen räumlichen Konfigurationen wahrnehmen würde, während sie mit der beobachteten Eingabe konsistent bleiben. Um diese Fähigkeit zu untersuchen, formulieren wir drei Aufgaben, Perspective Taking (PET), Path Tracing (PT) und Multiview Counting (MVC), und erstellen Datensätze mit etwa 20.000 Beispielen, die Ground-Truth-Imaginationen, Antworten und Evaluierungsbenchmarks umfassen. Mit dem einheitlichen VLM BAGEL als Backbone verbessert IPT-Supervision konsistent das räumliche Denken und übertrifft oft das Training mit textuellen Chain-of-Thought-Ansätzen, selbst ohne zur Inferenzzeit Bilder zu generieren. Bei MVC steigert IPT die Genauigkeit um 3,4 % und erzielt auf PT wettbewerbsfähige Ergebnisse mit leistungsstarken Closed-Source-Modellen. Darüber hinaus stellen wir fest, dass die Kombination von IPT und reiner Label-Supervision zusätzliche Gewinne bringt, während textuelle Chain-of-Thoughts die Leistung erheblich verschlechtern kann, was auf einen Modalitätskonflikt hindeutet, wenn räumliche Berechnungen durch Sprache erzwungen werden. Insgesamt bietet IPT ein prinzipienbasiertes Supervisionssignal für das Denken über nicht beobachtbare räumliche Strukturen, verbessert die Generalisierung und erzeugt gleichzeitig interpretierbare Zwischenrepräsentationen.

English

Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.