4DLangVGGT: Transformador de Geometría Visual y Lingüística en 4D con Base Geométrica
4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
December 4, 2025
Autores: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
La construcción de campos lingüísticos 4D es crucial para la IA corporeizada, la realidad aumentada/virtual y la comprensión de escenas 4D, ya que proporcionan representaciones semánticas enriquecidas de entornos dinámicos y permiten consultas de vocabulario abierto en escenarios complejos. Sin embargo, los enfoques existentes para la construcción de campos semánticos 4D se basan principalmente en el *splatting* Gaussiano específico por escena, que requiere optimización para cada escena, exhibe una generalización limitada y es difícil de escalar a aplicaciones del mundo real. Para abordar estas limitaciones, proponemos 4DLangVGGT, el primer marco unificado *feed-forward* basado en Transformer para la *grounding* lingüístico en 4D, que integra conjuntamente la percepción geométrica y la alineación del lenguaje dentro de una única arquitectura. 4DLangVGGT tiene dos componentes clave: el Transformer de Geometría Visual 4D, StreamVGGT, que captura representaciones geométricas espacio-temporales de escenas dinámicas; y el Decodificador de Conexión Semántica (SBD), que proyecta las características conscientes de la geometría en un espacio semántico alineado con el lenguaje, mejorando así la interpretabilidad semántica mientras preserva la fidelidad estructural. A diferencia de métodos anteriores que dependen de una costosa optimización por escena, 4DLangVGGT puede entrenarse conjuntamente en múltiples escenas dinámicas y aplicarse directamente durante la inferencia, logrando tanto eficiencia de despliegue como una fuerte generalización. Este diseño mejora significativamente la practicidad del despliegue a gran escala y establece un nuevo paradigma para la comprensión de escenas 4D de vocabulario abierto. Los experimentos en los conjuntos de datos HyperNeRF y Neu3D demuestran que nuestro enfoque no solo generaliza efectivamente, sino que también logra un rendimiento de vanguardia, alcanzando ganancias de hasta el 2% bajo entrenamiento por escena y mejoras del 1% bajo entrenamiento multi-escena. Nuestro código se ha publicado en https://github.com/hustvl/4DLangVGGT.
English
Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT