4DLangVGGT: 4次元言語-視覚幾何接地トランスフォーマー
4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
December 4, 2025
著者: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI
要旨
4D言語フィールドの構築は、動的環境の豊富な意味表現を提供し、複雑なシナリオにおけるオープン語彙クエリを可能にするため、具身AI、拡張現実/仮想現実、4Dシーン理解にとって極めて重要である。しかし、既存の4D意味フィールド構築手法は、主にシーン固有のガウススプラッティングに依存しており、シーンごとの最適化が必要で、一般化能力が限られ、実世界アプリケーションへのスケーリングが困難である。これらの課題を解決するため、我々は幾何知覚と言語アラインメントを単一アーキテクチャ内で統合する、トランスフォーマーベースの初のフィードフォワード型統一フレームワークである4DLangVGGTを提案する。4DLangVGGTは、動的シーンの時空間幾何表現を捕捉する4D Visual Geometry Transformer(StreamVGGT)と、幾何認識特徴を言語整合セマンティック空間に投影することで構造的忠実性を保ちつつ意味解釈性を高めるSemantic Bridging Decoder(SBD)の二つの主要コンポーネントで構成される。従来手法のように高コストなシーンごと最適化に依存せず、4DLangVGGTは複数の動的シーンにわたって共同訓練可能で、推論時に直接適用でき、展開効率と強力な一般化能力を両立する。この設計は大規模展開の実用性を大幅に向上させ、オープン語彙4Dシーン理解の新たなパラダイムを確立する。HyperNeRFおよびNeu3Dデータセットでの実験により、本手法が効果的に一般化するだけでなく、シーンごと訓練では最大2%、マルチシーン訓練では1%の精度向上を達成し、最先端の性能を実現することを示す。コードはhttps://github.com/hustvl/4DLangVGGT で公開している。
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT