ChatPaper.aiChatPaper

Transformateur Gaussien Progressif avec Échantillonnage Conscient de l'Anisotropie pour la Prédiction d'Occupation à Vocabulaire Ouvert

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

October 6, 2025
papers.authors: Chi Yan, Dan Xu
cs.AI

papers.abstract

La tâche de prédiction d'occupation 3D a connu des progrès remarquables ces dernières années, jouant un rôle crucial dans les systèmes de conduite autonome basés sur la vision. Alors que les méthodes traditionnelles se limitent à des catégories sémantiques fixes, les approches récentes ont évolué vers la prédiction de caractéristiques alignées sur le texte, permettant des requêtes textuelles en vocabulaire ouvert dans des scènes réelles. Cependant, il existe un compromis dans la modélisation de scènes alignées sur le texte : la représentation Gaussienne éparse peine à capturer les petits objets dans la scène, tandis que la représentation dense entraîne une surcharge computationnelle significative. Pour surmonter ces limitations, nous présentons PG-Occ, un cadre innovant de transformateur Gaussien progressif qui permet la prédiction d'occupation 3D en vocabulaire ouvert. Notre cadre utilise une densification progressive en ligne, une stratégie feed-forward qui améliore graduellement la représentation Gaussienne 3D pour capturer les détails fins de la scène. En améliorant itérativement la représentation, le cadre atteint une compréhension de la scène de plus en plus précise et détaillée. Une autre contribution clé est l'introduction d'une stratégie d'échantillonnage sensible à l'anisotropie avec fusion spatio-temporelle, qui attribue de manière adaptative des champs réceptifs aux Gaussiennes à différentes échelles et étapes, permettant une agrégation de caractéristiques plus efficace et une capture d'informations de scène plus riche. À travers des évaluations approfondies, nous démontrons que PG-Occ atteint des performances de pointe avec une amélioration relative de 14,3 % en mIoU par rapport à la meilleure méthode précédente. Le code et les modèles pré-entraînés seront publiés sur notre page de projet : https://yanchi-3dv.github.io/PG-Occ.
English
The 3D occupancy prediction task has witnessed remarkable progress in recent years, playing a crucial role in vision-based autonomous driving systems. While traditional methods are limited to fixed semantic categories, recent approaches have moved towards predicting text-aligned features to enable open-vocabulary text queries in real-world scenes. However, there exists a trade-off in text-aligned scene modeling: sparse Gaussian representation struggles to capture small objects in the scene, while dense representation incurs significant computational overhead. To address these limitations, we present PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables open-vocabulary 3D occupancy prediction. Our framework employs progressive online densification, a feed-forward strategy that gradually enhances the 3D Gaussian representation to capture fine-grained scene details. By iteratively enhancing the representation, the framework achieves increasingly precise and detailed scene understanding. Another key contribution is the introduction of an anisotropy-aware sampling strategy with spatio-temporal fusion, which adaptively assigns receptive fields to Gaussians at different scales and stages, enabling more effective feature aggregation and richer scene information capture. Through extensive evaluations, we demonstrate that PG-Occ achieves state-of-the-art performance with a relative 14.3% mIoU improvement over the previous best performing method. Code and pretrained models will be released upon publication on our project page: https://yanchi-3dv.github.io/PG-Occ
PDF92October 13, 2025