4DLangVGGT: 4D Taal-Visuele Geometrie Gegronde Transformer
4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
December 4, 2025
Auteurs: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI
Samenvatting
Het construeren van 4D-taalvelden is cruciaal voor belichaamde AI, augmented/virtual reality en 4D-scènebegrip, omdat ze verrijkte semantische representaties van dynamische omgevingen bieden en open-vocabulary bevraging in complexe scenario's mogelijk maken. Bestaande benaderingen voor de constructie van 4D-semantische velden zijn echter voornamelijk gebaseerd op scènespecifiek Gaussian splatting, wat per-scène-optimalisatie vereist, beperkte generalisatie vertoont en moeilijk schaalbaar is naar real-world toepassingen. Om deze beperkingen aan te pakken, stellen we 4DLangVGGT voor, het eerste Transformer-gebaseerde feed-forward unified framework voor 4D-language grounding, dat geometrische perceptie en taalalignement gezamenlijk integreert binnen een enkele architectuur. 4DLangVGGT heeft twee kerncomponenten: de 4D Visual Geometry Transformer, StreamVGGT, die spatio-temporele geometrische representaties van dynamische scènes vastlegt; en de Semantic Bridging Decoder (SBD), die geometrie-bewuste kenmerken projecteert in een taalgealigneeerde semantische ruimte, waardoor de semantische interpreteerbaarheid wordt verbeterd terwijl de structurele trouw behouden blijft. In tegenstelling tot eerdere methoden die afhankelijk zijn van kostbare per-scène-optimalisatie, kan 4DLangVGGT gezamenlijk worden getraind over meerdere dynamische scènes en direct worden toegepast tijdens inferentie, waardoor zowel implementatie-efficiëntie als sterke generalisatie worden bereikt. Dit ontwerp verbetert de praktische bruikbaarheid voor grootschalige implementatie aanzienlijk en vestigt een nieuw paradigma voor open-vocabulary 4D-scènebegrip. Experimenten op HyperNeRF- en Neu3D-datasets tonen aan dat onze aanpak niet alleen effectief generaliseert, maar ook state-of-the-art prestaties bereikt, met winsten tot 2% onder per-scène-training en 1% verbetering onder multi-scène-training. Onze code is vrijgegeven op https://github.com/hustvl/4DLangVGGT.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT