アニソトロピーを考慮したサンプリングを備えたプログレッシブガウシアントランスフォーマーによるオープン語彙オキュパンシー予測
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
著者: Chi Yan, Dan Xu
cs.AI
要旨
3D占有予測タスクは近年著しい進歩を遂げており、視覚ベースの自動運転システムにおいて重要な役割を果たしています。従来の手法は固定されたセマンティックカテゴリに限定されていましたが、最近のアプローチでは、現実世界のシーンにおけるオープンな語彙のテキストクエリを可能にするために、テキストに整合した特徴を予測する方向に進んでいます。しかし、テキストに整合したシーンモデリングにはトレードオフが存在します。疎なガウス表現はシーン内の小さなオブジェクトを捉えるのに苦労し、密な表現は計算コストが大幅に増加します。これらの制限に対処するため、我々はPG-Occを提案します。これは、オープンな語彙の3D占有予測を可能にする革新的なProgressive Gaussian Transformer Frameworkです。我々のフレームワークは、プログレッシブなオンライン密度化を採用し、3Dガウス表現を段階的に強化して細かいシーン詳細を捉えるフィードフォワード戦略を取ります。表現を反復的に強化することで、フレームワークはますます正確で詳細なシーン理解を実現します。もう一つの重要な貢献は、異方性を考慮したサンプリング戦略と時空間融合の導入です。これにより、異なるスケールと段階のガウスに適応的に受容野を割り当て、より効果的な特徴集約と豊富なシーン情報の捕捉を可能にします。広範な評価を通じて、PG-Occが従来の最高性能手法に対して14.3%の相対的なmIoU向上を達成し、最先端の性能を実現することを示します。コードと事前学習済みモデルは、プロジェクトページ(https://yanchi-3dv.github.io/PG-Occ)で公開時にリリースされます。
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ