Progressiver Gaußscher Transformer mit anisotropiebewusstem Sampling für die Vorhersage offener Vokabularbelegungen
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
papers.authors: Chi Yan, Dan Xu
cs.AI
papers.abstract
Die Aufgabe der 3D-Okkupationsvorhersage hat in den letzten Jahren bemerkenswerte Fortschritte erzielt und spielt eine entscheidende Rolle in visionbasierten autonomen Fahrzeugsystemen. Während traditionelle Methoden auf feste semantische Kategorien beschränkt sind, haben neuere Ansätze sich darauf verlagert, textausgerichtete Merkmale vorherzusagen, um offene Vokabular-Textabfragen in realen Szenen zu ermöglichen. Es besteht jedoch ein Kompromiss bei der textausgerichteten Szenenmodellierung: Eine spärliche Gaußsche Darstellung hat Schwierigkeiten, kleine Objekte in der Szene zu erfassen, während eine dichte Darstellung erheblichen Rechenaufwand verursacht. Um diese Einschränkungen zu überwinden, präsentieren wir PG-Occ, ein innovatives Progressives Gaußsches Transformer-Framework, das eine offene Vokabular-3D-Okkupationsvorhersage ermöglicht. Unser Framework verwendet eine progressive Online-Verdichtung, eine Feedforward-Strategie, die die 3D-Gaußsche Darstellung schrittweise verbessert, um feinkörnige Szenendetails zu erfassen. Durch die iterative Verbesserung der Darstellung erreicht das Framework ein zunehmend präzises und detailliertes Szenenverständnis. Ein weiterer wesentlicher Beitrag ist die Einführung einer anisotropiebewussten Sampling-Strategie mit raumzeitlicher Fusion, die adaptiv rezeptive Felder für Gaußsche auf verschiedenen Skalen und Stufen zuweist, wodurch eine effektivere Merkmalsaggregation und die Erfassung reichhaltigerer Szeneninformationen ermöglicht wird. Durch umfangreiche Evaluierungen zeigen wir, dass PG-Occ eine state-of-the-art Leistung erzielt und eine relative Verbesserung des mIoU von 14,3 % gegenüber der bisher besten Methode erreicht. Code und vortrainierte Modelle werden nach der Veröffentlichung auf unserer Projektseite verfügbar sein: https://yanchi-3dv.github.io/PG-Occ.
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ