ChatPaper.aiChatPaper

4DLangVGGT: 4D Sprach-Visuelle-Geometrie-Transformer mit geometrischer Verankerung

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

December 4, 2025
papers.authors: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI

papers.abstract

Die Konstruktion von 4D-Sprachfeldern ist entscheidend für verkörperte KI, Augmented/Virtual Reality und das 4D-Szenenverständnis, da sie angereicherte semantische Repräsentationen dynamischer Umgebungen bereitstellen und Open-Vocabulary-Abfragen in komplexen Szenarien ermöglichen. Bisherige Ansätze zur Konstruktion von 4D-Semantikfeldern basieren jedoch primär auf szenenspezifischem Gaussian Splatting, das eine Optimierung pro Szene erfordert, eine begrenzte Generalisierungsfähigkeit aufweist und nur schwer auf reale Anwendungen skaliert werden kann. Um diese Einschränkungen zu überwinden, schlagen wir 4DLangVGGT vor, das erste Transformer-basierte, vorwärtsgerichtete Unified Framework für 4D-Sprachverankerung, das geometrische Wahrnehmung und Sprachausrichtung gemeinsam in einer einzigen Architektur integriert. 4DLangVGGT besteht aus zwei Schlüsselkomponenten: dem 4D Visual Geometry Transformer, StreamVGGT, der räumlich-zeitliche geometrische Repräsentationen dynamischer Szenen erfasst; und dem Semantic Bridging Decoder (SBD), der geometriebewusste Merkmale in einen sprachausgerichteten semantischen Raum projiziert und so die semantische Interpretierbarkeit bei gleichzeitigem Erhalt der strukturellen Treue verbessert. Im Gegensatz zu früheren Methoden, die auf kostenintensive Optimierung pro Szene angewiesen sind, kann 4DLangVGGT gemeinsam über mehrere dynamische Szenen trainiert und während der Inferenz direkt angewendet werden, was sowohl Effizienz beim Einsatz als auch starke Generalisierung erreicht. Dieser Entwurf verbessert die Praxistauglichkeit für großskalige Bereitstellung erheblich und etabliert ein neues Paradigma für Open-Vocabulary-4D-Szenenverständnis. Experimente auf den HyperNeRF- und Neu3D-Datensätzen zeigen, dass unser Ansatz nicht nur effektiv generalisiert, sondern auch State-of-the-Art-Leistung erzielt, mit Verbesserungen von bis zu 2 % unter Training pro Szene und 1 % unter Training über mehrere Szenen. Unser Code ist unter https://github.com/hustvl/4DLangVGGT veröffentlicht.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT
PDF151December 6, 2025