Trasformatore Gaussiano Progressivo con Campionamento Consapevole dell'Anisotropia per la Predizione dell'Occupazione a Vocabolario Aperto
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
Autori: Chi Yan, Dan Xu
cs.AI
Abstract
Il compito di previsione dell'occupazione 3D ha registrato progressi significativi negli ultimi anni, svolgendo un ruolo cruciale nei sistemi di guida autonoma basati sulla visione. Mentre i metodi tradizionali sono limitati a categorie semantiche fisse, gli approcci recenti si sono orientati verso la previsione di caratteristiche allineate al testo per consentire query testuali a vocabolario aperto in scene del mondo reale. Tuttavia, esiste un compromesso nella modellazione di scene allineate al testo: la rappresentazione sparsa con Gaussiane fatica a catturare oggetti piccoli nella scena, mentre la rappresentazione densa comporta un significativo sovraccarico computazionale. Per affrontare queste limitazioni, presentiamo PG-Occ, un innovativo Progressive Gaussian Transformer Framework che consente la previsione dell'occupazione 3D a vocabolario aperto. Il nostro framework utilizza una densificazione progressiva online, una strategia feed-forward che migliora gradualmente la rappresentazione 3D con Gaussiane per catturare dettagli fini della scena. Migliorando iterativamente la rappresentazione, il framework raggiunge una comprensione della scena sempre più precisa e dettagliata. Un altro contributo chiave è l'introduzione di una strategia di campionamento consapevole dell'anisotropia con fusione spazio-temporale, che assegna in modo adattivo i campi recettivi alle Gaussiane a diverse scale e stadi, consentendo un'aggregazione delle caratteristiche più efficace e una cattura più ricca delle informazioni della scena. Attraverso valutazioni estensive, dimostriamo che PG-Occ raggiunge prestazioni all'avanguardia con un miglioramento relativo del 14,3% in mIoU rispetto al metodo precedentemente più performante. Il codice e i modelli pre-addestrati saranno rilasciati alla pubblicazione sulla nostra pagina del progetto: https://yanchi-3dv.github.io/PG-Occ
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ