ChatPaper.aiChatPaper

Video4Spatial: Auf dem Weg zur visuell-räumlichen Intelligenz durch kontextgesteuerte Videogenerierung

Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

December 2, 2025
papers.authors: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI

papers.abstract

Wir untersuchen, ob videogenerative Modelle visuell-räumliche Intelligenz – eine zentrale Fähigkeit menschlicher Kognition – allein anhand visueller Daten entwickeln können. Zu diesem Zweck stellen wir Video4Spatial vor, ein Framework, das zeigt, dass reine Video-Diffusionsmodelle, die ausschließlich auf videobasiertem Szenenkontext konditioniert sind, komplexe räumliche Aufgaben bewältigen können. Wir validieren dies anhand zweier Aufgaben: Szenennavigation – das Befolgen von Kameraposen-Anweisungen unter Wahrung der 3D-Geometrie der Szene – und Objektverankerung, die semantische Lokalisierung, Instruktionsbefolgung und Planung erfordert. Beide Aufgaben verwenden rein videobasierte Eingaben ohne zusätzliche Modalitäten wie Tiefeninformationen oder Posen. Durch einfache, aber effektive Designentscheidungen im Framework und bei der Datenaufbereitung demonstriert Video4Spatial ein starkes räumliches Verständnis aus dem Videokontext: Es plant Navigation und verankert Zielobjekte end-to-end, befolgt Kameraposen-Anweisungen unter Beibehaltung räumlicher Konsistenz und generalisiert auf lange Kontexte und domainsfremde Umgebungen. Zusammengenommen bringen diese Ergebnisse videogenerative Modelle im Hinblick auf allgemeines visuell-räumliches Schließen voran.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.
PDF31December 4, 2025