Прогрессивный Гауссовский Трансформер с анизотропно-ориентированной выборкой для прогнозирования занятости в открытом словаре
Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
October 6, 2025
Авторы: Chi Yan, Dan Xu
cs.AI
Аннотация
Задача прогнозирования 3D-занятости в последние годы демонстрирует значительный прогресс, играя ключевую роль в системах автономного вождения на основе компьютерного зрения. В то время как традиционные методы ограничены фиксированными семантическими категориями, современные подходы перешли к предсказанию текстово-выровненных признаков, что позволяет выполнять запросы с открытым словарным запасом в реальных сценах. Однако существует компромисс в моделировании сцен с текстовым выравниванием: разреженное представление Гаусса с трудом захватывает мелкие объекты в сцене, тогда как плотное представление требует значительных вычислительных затрат. Для устранения этих ограничений мы представляем PG-Occ, инновационную прогрессивную трансформерную структуру на основе Гаусса, которая позволяет выполнять прогнозирование 3D-занятости с открытым словарным запасом. Наша структура использует прогрессивное онлайн-уплотнение, стратегию прямого распространения, которая постепенно улучшает 3D-представление Гаусса для захвата деталей сцены. Итеративно улучшая представление, структура достигает всё более точного и детального понимания сцены. Ещё одним ключевым вкладом является введение стратегии выборки с учётом анизотропии и пространственно-временного слияния, которая адаптивно назначает рецептивные поля Гауссам на разных масштабах и этапах, обеспечивая более эффективную агрегацию признаков и захват более богатой информации о сцене. В ходе обширных оценок мы демонстрируем, что PG-Occ достигает наилучших результатов с относительным улучшением mIoU на 14,3% по сравнению с предыдущим лучшим методом. Код и предварительно обученные модели будут опубликованы на нашей странице проекта: https://yanchi-3dv.github.io/PG-Occ.
English
The 3D occupancy prediction task has witnessed remarkable progress in recent
years, playing a crucial role in vision-based autonomous driving systems. While
traditional methods are limited to fixed semantic categories, recent approaches
have moved towards predicting text-aligned features to enable open-vocabulary
text queries in real-world scenes. However, there exists a trade-off in
text-aligned scene modeling: sparse Gaussian representation struggles to
capture small objects in the scene, while dense representation incurs
significant computational overhead. To address these limitations, we present
PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables
open-vocabulary 3D occupancy prediction. Our framework employs progressive
online densification, a feed-forward strategy that gradually enhances the 3D
Gaussian representation to capture fine-grained scene details. By iteratively
enhancing the representation, the framework achieves increasingly precise and
detailed scene understanding. Another key contribution is the introduction of
an anisotropy-aware sampling strategy with spatio-temporal fusion, which
adaptively assigns receptive fields to Gaussians at different scales and
stages, enabling more effective feature aggregation and richer scene
information capture. Through extensive evaluations, we demonstrate that PG-Occ
achieves state-of-the-art performance with a relative 14.3% mIoU improvement
over the previous best performing method. Code and pretrained models will be
released upon publication on our project page:
https://yanchi-3dv.github.io/PG-Occ