ChatPaper.aiChatPaper

アニソトロピーを考慮したサンプリングを備えたプログレッシブガウシアントランスフォーマーによるオープン語彙オキュパンシー予測

Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

October 6, 2025
著者: Chi Yan, Dan Xu
cs.AI

要旨

3D占有予測タスクは近年著しい進歩を遂げており、視覚ベースの自動運転システムにおいて重要な役割を果たしています。従来の手法は固定されたセマンティックカテゴリに限定されていましたが、最近のアプローチでは、現実世界のシーンにおけるオープンな語彙のテキストクエリを可能にするために、テキストに整合した特徴を予測する方向に進んでいます。しかし、テキストに整合したシーンモデリングにはトレードオフが存在します。疎なガウス表現はシーン内の小さなオブジェクトを捉えるのに苦労し、密な表現は計算コストが大幅に増加します。これらの制限に対処するため、我々はPG-Occを提案します。これは、オープンな語彙の3D占有予測を可能にする革新的なProgressive Gaussian Transformer Frameworkです。我々のフレームワークは、プログレッシブなオンライン密度化を採用し、3Dガウス表現を段階的に強化して細かいシーン詳細を捉えるフィードフォワード戦略を取ります。表現を反復的に強化することで、フレームワークはますます正確で詳細なシーン理解を実現します。もう一つの重要な貢献は、異方性を考慮したサンプリング戦略と時空間融合の導入です。これにより、異なるスケールと段階のガウスに適応的に受容野を割り当て、より効果的な特徴集約と豊富なシーン情報の捕捉を可能にします。広範な評価を通じて、PG-Occが従来の最高性能手法に対して14.3%の相対的なmIoU向上を達成し、最先端の性能を実現することを示します。コードと事前学習済みモデルは、プロジェクトページ(https://yanchi-3dv.github.io/PG-Occ)で公開時にリリースされます。
English
The 3D occupancy prediction task has witnessed remarkable progress in recent years, playing a crucial role in vision-based autonomous driving systems. While traditional methods are limited to fixed semantic categories, recent approaches have moved towards predicting text-aligned features to enable open-vocabulary text queries in real-world scenes. However, there exists a trade-off in text-aligned scene modeling: sparse Gaussian representation struggles to capture small objects in the scene, while dense representation incurs significant computational overhead. To address these limitations, we present PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables open-vocabulary 3D occupancy prediction. Our framework employs progressive online densification, a feed-forward strategy that gradually enhances the 3D Gaussian representation to capture fine-grained scene details. By iteratively enhancing the representation, the framework achieves increasingly precise and detailed scene understanding. Another key contribution is the introduction of an anisotropy-aware sampling strategy with spatio-temporal fusion, which adaptively assigns receptive fields to Gaussians at different scales and stages, enabling more effective feature aggregation and richer scene information capture. Through extensive evaluations, we demonstrate that PG-Occ achieves state-of-the-art performance with a relative 14.3% mIoU improvement over the previous best performing method. Code and pretrained models will be released upon publication on our project page: https://yanchi-3dv.github.io/PG-Occ
PDF92October 13, 2025