GASP: Объединение геометрической и семантической самоконтролируемой предварительной подготовки для автономного вождения
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
Авторы: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
Аннотация
Предварительное обучение с самоконтролем на основе предсказания следующего токена позволило крупным языковым моделям улавливать базовую структуру текста и привело к беспрецедентной производительности на множестве задач при масштабировании. Аналогично, автономное вождение генерирует огромные объемы пространственно-временных данных, намекая на возможность использования масштаба для изучения базовой геометрической и семантической структуры окружающей среды и ее эволюции во времени. В этом направлении мы предлагаем геометрический и семантический метод предварительного обучения с самоконтролем, GASP, который изучает унифицированное представление, предсказывая в любой запрошенной будущей точке пространства-времени: (1) общую занятость, отражающую эволюцию структуры 3D-сцены; (2) занятость эго-транспортного средства, моделирующую путь транспортного средства через среду; и (3) дистиллированные высокоуровневые признаки из базовой модели зрения. Моделируя геометрические и семантические 4D-поля занятости вместо сырых данных сенсоров, модель изучает структурированное, обобщаемое представление окружающей среды и ее эволюции во времени. Мы проверяем GASP на нескольких бенчмарках автономного вождения, демонстрируя значительные улучшения в прогнозировании семантической занятости, онлайн-картографировании и предсказании траектории эго-транспортного средства. Наши результаты показывают, что непрерывное предсказание 4D-геометрической и семантической занятости предоставляет масштабируемую и эффективную парадигму предварительного обучения для автономного вождения. Для кода и дополнительных визуализаций см. \href{https://research.zenseact.com/publications/gasp/.}
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.Summary
AI-Generated Summary