Progressieve Gaussische Transformer met Anisotropie-bewuste Steekproef voor Open Vocabulaire Bezettingsvoorspelling
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
Auteurs: Chi Yan, Dan Xu
cs.AI
Samenvatting
De taak van 3D-occupancyvoorspelling heeft de afgelopen jaren aanzienlijke vooruitgang geboekt en speelt een cruciale rol in visiegestuurde autonome rijsystemen. Terwijl traditionele methoden beperkt zijn tot vaste semantische categorieën, zijn recente benaderingen verschoven naar het voorspellen van tekstuitgelijnde kenmerken om open-vocabulary tekstquery's in real-world scènes mogelijk te maken. Er bestaat echter een afweging bij tekstuitgelijnde scènemodellering: een spaarse Gaussische representatie heeft moeite met het vastleggen van kleine objecten in de scène, terwijl een dichte representatie aanzienlijke rekenkosten met zich meebrengt. Om deze beperkingen aan te pakken, presenteren we PG-Occ, een innovatief Progressief Gaussisch Transformer Framework dat open-vocabulary 3D-occupancyvoorspelling mogelijk maakt. Ons framework maakt gebruik van progressieve online verdichting, een feed-forward strategie die geleidelijk de 3D Gaussische representatie verbetert om fijnmazige scènedetails vast te leggen. Door de representatie iteratief te verbeteren, bereikt het framework een steeds nauwkeuriger en gedetailleerder scènebegrip. Een andere belangrijke bijdrage is de introductie van een anisotropiebewuste bemonsteringsstrategie met spatio-temporele fusie, die adaptief receptieve velden toewijst aan Gaussische verdelingen op verschillende schalen en stadia, waardoor effectievere kenmerksaggregatie en rijkere scène-informatie worden vastgelegd. Door uitgebreide evaluaties tonen we aan dat PG-Occ state-of-the-art prestaties bereikt met een relatieve verbetering van 14,3% mIoU ten opzichte van de vorige best presterende methode. Code en vooraf getrainde modellen zullen worden vrijgegeven na publicatie op onze projectpagina: https://yanchi-3dv.github.io/PG-Occ
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ