4DLangVGGT: Transformador com Base em Geometria Visual e Linguagem 4D

Resumo

A construção de campos linguísticos 4D é crucial para a IA incorporada, realidade aumentada/virtual e a compreensão de cenas 4D, pois fornecem representações semânticas enriquecidas de ambientes dinâmicos e permitem consultas de vocabulário aberto em cenários complexos. No entanto, as abordagens existentes para a construção de campos semânticos 4D baseiam-se principalmente em *splatting* Gaussiano específico por cena, o que requer otimização para cada cena, exibe generalização limitada e é difícil de escalar para aplicações do mundo real. Para superar essas limitações, propomos o 4DLangVGGT, o primeiro *framework* unificado *feed-forward* baseado em *Transformer* para a ancoragem linguística em 4D, que integra conjuntamente a perceção geométrica e o alinhamento linguístico numa única arquitetura. O 4DLangVGGT tem dois componentes principais: o *4D Visual Geometry Transformer*, StreamVGGT, que capta representações geométricas espaço-temporais de cenas dinâmicas; e o *Semantic Bridging Decoder* (SBD), que projeta características com consciência geométrica num espaço semântico alinhado com a linguagem, melhorando assim a interpretabilidade semântica enquanto preserva a fidelidade estrutural. Ao contrário de métodos anteriores que dependem de uma dispendiosa otimização por cena, o 4DLangVGGT pode ser treinado conjuntamente em múltiplas cenas dinâmicas e aplicado diretamente durante a inferência, alcançando tanto eficiência de implantação como uma forte generalização. Este design melhora significativamente a praticidade da implantação em larga escala e estabelece um novo paradigma para a compreensão de cenas 4D de vocabulário aberto. Experiências nos conjuntos de dados HyperNeRF e Neu3D demonstram que a nossa abordagem não só generaliza eficazmente, como também atinge um desempenho de última geração, alcançando ganhos de até 2% sob treino por cena e melhorias de 1% sob treino multi-cena. O nosso código está disponível em https://github.com/hustvl/4DLangVGGT.

English

Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT