GASP: Объединение геометрической и семантической самоконтролируемой предварительной подготовки для автономного вождения

Аннотация

Предварительное обучение с самоконтролем на основе предсказания следующего токена позволило крупным языковым моделям улавливать базовую структуру текста и привело к беспрецедентной производительности на множестве задач при масштабировании. Аналогично, автономное вождение генерирует огромные объемы пространственно-временных данных, намекая на возможность использования масштаба для изучения базовой геометрической и семантической структуры окружающей среды и ее эволюции во времени. В этом направлении мы предлагаем геометрический и семантический метод предварительного обучения с самоконтролем, GASP, который изучает унифицированное представление, предсказывая в любой запрошенной будущей точке пространства-времени: (1) общую занятость, отражающую эволюцию структуры 3D-сцены; (2) занятость эго-транспортного средства, моделирующую путь транспортного средства через среду; и (3) дистиллированные высокоуровневые признаки из базовой модели зрения. Моделируя геометрические и семантические 4D-поля занятости вместо сырых данных сенсоров, модель изучает структурированное, обобщаемое представление окружающей среды и ее эволюции во времени. Мы проверяем GASP на нескольких бенчмарках автономного вождения, демонстрируя значительные улучшения в прогнозировании семантической занятости, онлайн-картографировании и предсказании траектории эго-транспортного средства. Наши результаты показывают, что непрерывное предсказание 4D-геометрической и семантической занятости предоставляет масштабируемую и эффективную парадигму предварительного обучения для автономного вождения. Для кода и дополнительных визуализаций см. \href{https://research.zenseact.com/publications/gasp/.}

English

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

GASP: Объединение геометрической и семантической самоконтролируемой предварительной подготовки для автономного вождения

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Аннотация

Support