ChatPaper.aiChatPaper

4DLangVGGT: 4D 언어-시각 기하학 기반 트랜스포머

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

December 4, 2025
저자: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI

초록

4D 언어 필드 구축은 역동적 환경의 풍부한 의미론적 표현을 제공하고 복잡한 시나리오에서 개방형 어휘 질의를 가능하게 하므로, 구현형 AI, 증강/가상 현실 및 4D 장면 이해에 중요합니다. 그러나 기존의 4D 의미론적 필드 구축 접근법은 주로 장면 특화적 가우시안 스플래팅에 의존하며, 이는 장면별 최적화가 필요하고 일반화 능력이 제한적이며 실제 응용으로 확장하기 어렵습니다. 이러한 한계를 해결하기 위해 우리는 단일 아키텍처 내에서 기하학적 인지와 언어 정렬을 공동으로 통합하는 최초의 Transformer 기반 순전파 통합 프레임워크인 4DLangVGGT를 제안합니다. 4DLangVGGT는 두 가지 핵심 구성 요소를 가집니다: 역동적 장면의 시공간 기하학적 표현을 포착하는 4D Visual Geometry Transformer인 StreamVGGT, 그리고 기하학 인식 특징을 언어 정렬 의미론적 공간으로投射하여 구조적 정확도를 유지하면서 의미론적 해석 가능성을 향상시키는 Semantic Bridging Decoder(SBD)입니다. 비용이 많이 드는 장면별 최적화에 의존하는 기존 방법과 달리, 4DLangVGGT는 여러 역동적 장면에 걸쳐 공동으로 훈련될 수 있으며 추론期间 직접 적용되어 배포 효율성과 강력한 일반화를 모두 달성합니다. 이 설계는 대규모 배치의 실용성을 크게 향상시키고 개방형 어휘 4D 장면 이해를 위한 새로운 패러다임을 정립합니다. HyperNeRF 및 Neu3D 데이터셋에 대한 실험은 우리의 접근법이 효과적으로 일반화될 뿐만 아니라 최첨단 성능을 달성하여, 장면별 훈련下에서 최대 2%, 다중 장면 훈련下에서 1%의 성능 향상을 보여줍니다. 우리의 코드는 https://github.com/hustvl/4DLangVGGT에서 공개되었습니다.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT
PDF151December 6, 2025