4DLangVGGT: 4D Трансформер с геометрической привязкой для языка и визуальных данных
4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
December 4, 2025
Авторы: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI
Аннотация
Построение 4D языковых полей является ключевой задачей для воплощенного ИИ, дополненной/виртуальной реальности и понимания 4D-сцен, поскольку они обеспечивают обогащенные семантические представления динамических сред и позволяют осуществлять запросы с открытым словарем в сложных сценариях. Однако существующие подходы к построению 4D семантических полей в основном опираются на сценоспецифичный сплайнинг по Гауссу, который требует оптимизации для каждой сцены, обладает ограниченной обобщающей способностью и сложно масштабируется для реальных применений. Чтобы преодолеть эти ограничения, мы предлагаем 4DLangVGGT — первую трансформерную прямую унифицированную архитектуру для 4D языковой привязки, которая совместно интегрирует геометрическое восприятие и языковое выравнивание в единую структуру. 4DLangVGGT имеет два ключевых компонента: 4D трансформер визуальной геометрии StreamVGGT, который захватывает пространственно-временные геометрические представления динамических сцен; и семантический связующий декодер (SBD), который проецирует геометрически осознанные признаки в языково-выровненное семантическое пространство, повышая семантическую интерпретируемость при сохранении структурной достоверности. В отличие от предыдущих методов, зависящих от затратной оптимизации на сцену, 4DLangVGGT может обучаться совместно на множестве динамических сцен и напрямую применяться на этапе вывода, достигая как эффективности развертывания, так и сильного обобщения. Данная конструкция значительно повышает практическую пригодность для крупномасштабного развертывания и устанавливает новую парадигму для понимания 4D-сцен с открытым словарем. Эксперименты на наборах данных HyperNeRF и Neu3D демонстрируют, что наш подход не только эффективно обобщает, но и достигает передовой производительности, показывая прирост до 2% при обучении на одну сцену и улучшение на 1% при обучении на множестве сцен. Наш код доступен по адресу https://github.com/hustvl/4DLangVGGT.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT