Transformador Gaussiano Progressivo com Amostragem Consciente da Anisotropia para Predição de Ocupação de Vocabulário Aberto
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
Autores: Chi Yan, Dan Xu
cs.AI
Resumo
A tarefa de previsão de ocupação 3D tem testemunhado progressos notáveis nos últimos anos, desempenhando um papel crucial em sistemas de condução autônoma baseados em visão. Enquanto os métodos tradicionais se limitam a categorias semânticas fixas, abordagens recentes têm evoluído para a previsão de características alinhadas a texto, permitindo consultas de vocabulário aberto em cenas do mundo real. No entanto, existe uma compensação na modelagem de cenas alinhadas a texto: a representação esparsa de Gaussiana tem dificuldade em capturar objetos pequenos na cena, enquanto a representação densa incorre em um custo computacional significativo. Para abordar essas limitações, apresentamos o PG-Occ, uma estrutura inovadora de Transformador Gaussiano Progressivo que permite a previsão de ocupação 3D de vocabulário aberto. Nossa estrutura emprega uma densificação progressiva online, uma estratégia de avanço que gradualmente melhora a representação Gaussiana 3D para capturar detalhes refinados da cena. Ao aprimorar iterativamente a representação, a estrutura alcança uma compreensão de cena cada vez mais precisa e detalhada. Outra contribuição fundamental é a introdução de uma estratégia de amostragem com consciência de anisotropia e fusão espaço-temporal, que adaptativamente atribui campos receptivos a Gaussianas em diferentes escalas e estágios, permitindo uma agregação de características mais eficaz e uma captura mais rica de informações da cena. Através de avaliações extensivas, demonstramos que o PG-Occ alcança desempenho de ponta com uma melhoria relativa de 14,3% no mIoU em relação ao método anterior de melhor desempenho. O código e os modelos pré-treinados serão liberados após a publicação em nossa página do projeto: https://yanchi-3dv.github.io/PG-Occ
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ