ChatPaper.aiChatPaper

4DLangVGGT: Trasformatore con Base Geometrica Visiva-Linguistica 4D

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

December 4, 2025
Autori: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI

Abstract

La costruzione di campi linguistici 4D è cruciale per l'IA incarnata, la realtà aumentata/virtuale e la comprensione di scene 4D, poiché forniscono rappresentazioni semantiche arricchite di ambienti dinamici e abilitano interrogazioni a vocabolario aperto in scenari complessi. Tuttavia, gli approcci esistenti per la costruzione di campi semantici 4D si basano principalmente sullo splatting Gaussiano specifico per scena, che richiede un'ottimizzazione per ogni scena, mostra una generalizzazione limitata ed è difficile da scalare per applicazioni nel mondo reale. Per affrontare queste limitazioni, proponiamo 4DLangVGGT, il primo framework unificato feed-forward basato su Transformer per il grounding linguistico 4D, che integra congiuntamente la percezione geometrica e l'allineamento linguistico all'interno di un'unica architettura. 4DLangVGGT ha due componenti chiave: il 4D Visual Geometry Transformer, StreamVGGT, che cattura rappresentazioni geometriche spazio-temporali di scene dinamiche; e il Semantic Bridging Decoder (SBD), che proietta le feature geometricamente consapevoli in uno spazio semantico allineato al linguaggio, migliorando così l'interpretabilità semantica preservando al contempo la fedeltà strutturale. A differenza dei metodi precedenti che dipendono da costose ottimizzazioni per scena, 4DLangVGGT può essere addestrato congiuntamente su più scene dinamiche e applicato direttamente durante l'inferenza, raggiungendo sia efficienza di deployment sia una forte generalizzazione. Questo design migliora significativamente la praticità dello spiegamento su larga scala e stabilisce un nuovo paradigma per la comprensione di scene 4D a vocabolario aperto. Esperimenti sui dataset HyperNeRF e Neu3D dimostrano che il nostro approccio non solo generalizza efficacemente, ma raggiunge anche prestazioni allo stato dell'arte, ottenendo guadagni fino al 2% nell'addestramento per scena e miglioramenti dell'1% nell'addestramento multi-scena. Il nostro codice è rilasciato su https://github.com/hustvl/4DLangVGGT.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT
PDF182December 21, 2025