ChatPaper.aiChatPaper

4DLangVGGT : Transformeur à base de géométrie visuelle et linguistique en 4D

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

December 4, 2025
papers.authors: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI

papers.abstract

La construction de champs linguistiques 4D est cruciale pour l'IA incarnée, la réalité augmentée/virtuelle et la compréhension de scènes 4D, car ils fournissent des représentations sémantiques enrichies d'environnements dynamiques et permettent l'interrogation en vocabulaire ouvert dans des scénarios complexes. Cependant, les approches existantes pour la construction de champs sémantiques 4D reposent principalement sur le placage de Gauss spécifique à la scène, qui nécessite une optimisation par scène, présente une généralisation limitée et est difficile à mettre à l'échelle pour des applications réelles. Pour résoudre ces limitations, nous proposons 4DLangVGGT, le premier cadre unifié feed-forward basé sur Transformer pour l'ancrage linguistique 4D, qui intègre conjointement la perception géométrique et l'alignement linguistique au sein d'une architecture unique. 4DLangVGGT possède deux composants clés : le Transformeur de Géométrie Visuelle 4D, StreamVGGT, qui capture les représentations géométriques spatio-temporelles de scènes dynamiques ; et le Décodeur de Pont Sémantique (SBD), qui projette les caractéristiques sensibles à la géométrie dans un espace sémantique aligné avec le langage, améliorant ainsi l'interprétabilité sémantique tout en préservant la fidélité structurelle. Contrairement aux méthodes antérieures qui dépendent d'une optimisation coûteuse par scène, 4DLangVGGT peut être entraîné conjointement sur plusieurs scènes dynamiques et appliqué directement lors de l'inférence, atteignant à la fois une efficacité de déploiement et une forte généralisation. Cette conception améliore significativement la praticité du déploiement à grande échelle et établit un nouveau paradigme pour la compréhension de scènes 4D en vocabulaire ouvert. Les expériences sur les jeux de données HyperNeRF et Neu3D démontrent que notre approche généralise efficacement tout en atteignant des performances de pointe, avec des gains allant jusqu'à 2% dans un entraînement par scène et des améliorations de 1% dans un entraînement multi-scènes. Notre code est disponible sur https://github.com/hustvl/4DLangVGGT
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT
PDF151December 6, 2025