ChatPaper.aiChatPaper

Trasformatore Gaussiano Progressivo con Campionamento Consapevole dell'Anisotropia per la Predizione dell'Occupazione a Vocabolario Aperto

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

October 6, 2025
Autori: Chi Yan, Dan Xu
cs.AI

Abstract

Il compito di previsione dell'occupazione 3D ha registrato progressi significativi negli ultimi anni, svolgendo un ruolo cruciale nei sistemi di guida autonoma basati sulla visione. Mentre i metodi tradizionali sono limitati a categorie semantiche fisse, gli approcci recenti si sono orientati verso la previsione di caratteristiche allineate al testo per consentire query testuali a vocabolario aperto in scene del mondo reale. Tuttavia, esiste un compromesso nella modellazione di scene allineate al testo: la rappresentazione sparsa con Gaussiane fatica a catturare oggetti piccoli nella scena, mentre la rappresentazione densa comporta un significativo sovraccarico computazionale. Per affrontare queste limitazioni, presentiamo PG-Occ, un innovativo Progressive Gaussian Transformer Framework che consente la previsione dell'occupazione 3D a vocabolario aperto. Il nostro framework utilizza una densificazione progressiva online, una strategia feed-forward che migliora gradualmente la rappresentazione 3D con Gaussiane per catturare dettagli fini della scena. Migliorando iterativamente la rappresentazione, il framework raggiunge una comprensione della scena sempre più precisa e dettagliata. Un altro contributo chiave è l'introduzione di una strategia di campionamento consapevole dell'anisotropia con fusione spazio-temporale, che assegna in modo adattivo i campi recettivi alle Gaussiane a diverse scale e stadi, consentendo un'aggregazione delle caratteristiche più efficace e una cattura più ricca delle informazioni della scena. Attraverso valutazioni estensive, dimostriamo che PG-Occ raggiunge prestazioni all'avanguardia con un miglioramento relativo del 14,3% in mIoU rispetto al metodo precedentemente più performante. Il codice e i modelli pre-addestrati saranno rilasciati alla pubblicazione sulla nostra pagina del progetto: https://yanchi-3dv.github.io/PG-Occ
English
The 3D occupancy prediction task has witnessed remarkable progress in recent years, playing a crucial role in vision-based autonomous driving systems. While traditional methods are limited to fixed semantic categories, recent approaches have moved towards predicting text-aligned features to enable open-vocabulary text queries in real-world scenes. However, there exists a trade-off in text-aligned scene modeling: sparse Gaussian representation struggles to capture small objects in the scene, while dense representation incurs significant computational overhead. To address these limitations, we present PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables open-vocabulary 3D occupancy prediction. Our framework employs progressive online densification, a feed-forward strategy that gradually enhances the 3D Gaussian representation to capture fine-grained scene details. By iteratively enhancing the representation, the framework achieves increasingly precise and detailed scene understanding. Another key contribution is the introduction of an anisotropy-aware sampling strategy with spatio-temporal fusion, which adaptively assigns receptive fields to Gaussians at different scales and stages, enabling more effective feature aggregation and richer scene information capture. Through extensive evaluations, we demonstrate that PG-Occ achieves state-of-the-art performance with a relative 14.3% mIoU improvement over the previous best performing method. Code and pretrained models will be released upon publication on our project page: https://yanchi-3dv.github.io/PG-Occ
PDF92October 13, 2025