ChatPaper.aiChatPaper

Transformador Gaussiano Progresivo con Muestreo Consciente de la Anisotropía para la Predicción de Ocupación de Vocabulario Abierto

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

October 6, 2025
Autores: Chi Yan, Dan Xu
cs.AI

Resumen

La tarea de predicción de ocupación 3D ha experimentado un progreso notable en los últimos años, desempeñando un papel crucial en los sistemas de conducción autónoma basados en visión. Mientras que los métodos tradicionales se limitan a categorías semánticas fijas, los enfoques recientes han avanzado hacia la predicción de características alineadas con texto para permitir consultas de texto de vocabulario abierto en escenas del mundo real. Sin embargo, existe un compromiso en el modelado de escenas alineadas con texto: la representación gaussiana dispersa tiene dificultades para capturar objetos pequeños en la escena, mientras que la representación densa incurre en un sobrecosto computacional significativo. Para abordar estas limitaciones, presentamos PG-Occ, un innovador Marco de Transformador Gaussiano Progresivo que permite la predicción de ocupación 3D de vocabulario abierto. Nuestro marco emplea una densificación progresiva en línea, una estrategia de avance que mejora gradualmente la representación gaussiana 3D para capturar detalles finos de la escena. Al mejorar iterativamente la representación, el marco logra una comprensión de la escena cada vez más precisa y detallada. Otra contribución clave es la introducción de una estrategia de muestreo consciente de la anisotropía con fusión espacio-temporal, que asigna de manera adaptativa campos receptivos a gaussianas en diferentes escalas y etapas, permitiendo una agregación de características más efectiva y una captura de información de la escena más rica. A través de evaluaciones extensas, demostramos que PG-Occ alcanza un rendimiento de vanguardia con una mejora relativa del 14.3% en mIoU sobre el método de mejor rendimiento anterior. El código y los modelos preentrenados se publicarán en nuestra página del proyecto: https://yanchi-3dv.github.io/PG-Occ.
English
The 3D occupancy prediction task has witnessed remarkable progress in recent years, playing a crucial role in vision-based autonomous driving systems. While traditional methods are limited to fixed semantic categories, recent approaches have moved towards predicting text-aligned features to enable open-vocabulary text queries in real-world scenes. However, there exists a trade-off in text-aligned scene modeling: sparse Gaussian representation struggles to capture small objects in the scene, while dense representation incurs significant computational overhead. To address these limitations, we present PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables open-vocabulary 3D occupancy prediction. Our framework employs progressive online densification, a feed-forward strategy that gradually enhances the 3D Gaussian representation to capture fine-grained scene details. By iteratively enhancing the representation, the framework achieves increasingly precise and detailed scene understanding. Another key contribution is the introduction of an anisotropy-aware sampling strategy with spatio-temporal fusion, which adaptively assigns receptive fields to Gaussians at different scales and stages, enabling more effective feature aggregation and richer scene information capture. Through extensive evaluations, we demonstrate that PG-Occ achieves state-of-the-art performance with a relative 14.3% mIoU improvement over the previous best performing method. Code and pretrained models will be released upon publication on our project page: https://yanchi-3dv.github.io/PG-Occ
PDF92October 13, 2025