개방형 어휘 점유율 예측을 위한 이방성 인식 샘플링 기반 점진적 가우시안 트랜스포머
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
저자: Chi Yan, Dan Xu
cs.AI
초록
3D 점유 예측(occupancy prediction) 작업은 최근 몇 년 동안 눈부신 발전을 이루며, 비전 기반 자율 주행 시스템에서 중요한 역할을 하고 있습니다. 기존의 전통적인 방법들은 고정된 의미론적 범주(semantic categories)에 국한되어 있었지만, 최근 접근법들은 실제 장면에서 개방형 어휘(open-vocabulary) 텍스트 쿼리를 가능하게 하기 위해 텍스트 정렬 특성(text-aligned features)을 예측하는 방향으로 나아가고 있습니다. 그러나 텍스트 정렬 장면 모델링에는 트레이드오프가 존재합니다: 희소 가우시안 표현(sparse Gaussian representation)은 장면 내 작은 객체를 포착하는 데 어려움을 겪는 반면, 밀집 표현(dense representation)은 상당한 계산 오버헤드를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 개방형 어휘 3D 점유 예측을 가능하게 하는 혁신적인 PG-Occ(Progressive Gaussian Transformer Framework)를 제안합니다. 우리의 프레임워크는 점진적 온라인 밀집화(progressive online densification)를 사용하여, 3D 가우시안 표현을 점차적으로 향상시켜 미세한 장면 세부 사항을 포착합니다. 반복적으로 표현을 강화함으로써, 프레임워크는 점점 더 정밀하고 상세한 장면 이해를 달성합니다. 또 다른 주요 기여는 시공간 융합(spatio-temporal fusion)을 통한 이방성 인식 샘플링 전략(anisotropy-aware sampling strategy)의 도입입니다. 이 전략은 다양한 스케일과 단계에서 가우시안에 적응적으로 수용 필드(receptive fields)를 할당하여, 더 효과적인 특성 집계와 더 풍부한 장면 정보 포착을 가능하게 합니다. 광범위한 평가를 통해, PG-Occ가 이전 최고 성능 방법 대비 14.3%의 상대적 mIoU 개선을 달성하며 최첨단 성능을 보임을 입증합니다. 코드와 사전 학습된 모델은 프로젝트 페이지(https://yanchi-3dv.github.io/PG-Occ)에 게시 시 공개될 예정입니다.
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ