GASP: Unificando el Preentrenamiento Autosupervisado Geométrico y Semántico para la Conducción Autónoma
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
Autores: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
Resumen
El preentrenamiento autosupervisado basado en la predicción del siguiente token ha permitido que los modelos de lenguaje a gran escala capturen la estructura subyacente del texto, lo que ha llevado a un rendimiento sin precedentes en una amplia variedad de tareas cuando se aplica a gran escala. De manera similar, la conducción autónoma genera grandes cantidades de datos espacio-temporales, sugiriendo la posibilidad de aprovechar la escala para aprender la estructura geométrica y semántica subyacente del entorno y su evolución en el tiempo. En esta dirección, proponemos un método de preentrenamiento autosupervisado geométrico y semántico, GASP, que aprende una representación unificada al predecir, en cualquier punto futuro consultado en el espacio-tiempo: (1) la ocupación general, capturando la estructura evolutiva de la escena 3D; (2) la ocupación del ego, modelando la trayectoria del vehículo ego a través del entorno; y (3) características de alto nivel destiladas de un modelo fundacional de visión. Al modelar campos de ocupación geométrica y semántica en 4D en lugar de mediciones brutas de sensores, el modelo aprende una representación estructurada y generalizable del entorno y su evolución en el tiempo. Validamos GASP en múltiples benchmarks de conducción autónoma, demostrando mejoras significativas en la predicción de ocupación semántica, mapeo en línea y predicción de la trayectoria del ego. Nuestros resultados muestran que la predicción continua de ocupación geométrica y semántica en 4D proporciona un paradigma de preentrenamiento escalable y efectivo para la conducción autónoma. Para el código y visualizaciones adicionales, consulte \href{https://research.zenseact.com/publications/gasp/.
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.Summary
AI-Generated Summary