GASP: Unificando el Preentrenamiento Autosupervisado Geométrico y Semántico para la Conducción Autónoma

Resumen

El preentrenamiento autosupervisado basado en la predicción del siguiente token ha permitido que los modelos de lenguaje a gran escala capturen la estructura subyacente del texto, lo que ha llevado a un rendimiento sin precedentes en una amplia variedad de tareas cuando se aplica a gran escala. De manera similar, la conducción autónoma genera grandes cantidades de datos espacio-temporales, sugiriendo la posibilidad de aprovechar la escala para aprender la estructura geométrica y semántica subyacente del entorno y su evolución en el tiempo. En esta dirección, proponemos un método de preentrenamiento autosupervisado geométrico y semántico, GASP, que aprende una representación unificada al predecir, en cualquier punto futuro consultado en el espacio-tiempo: (1) la ocupación general, capturando la estructura evolutiva de la escena 3D; (2) la ocupación del ego, modelando la trayectoria del vehículo ego a través del entorno; y (3) características de alto nivel destiladas de un modelo fundacional de visión. Al modelar campos de ocupación geométrica y semántica en 4D en lugar de mediciones brutas de sensores, el modelo aprende una representación estructurada y generalizable del entorno y su evolución en el tiempo. Validamos GASP en múltiples benchmarks de conducción autónoma, demostrando mejoras significativas en la predicción de ocupación semántica, mapeo en línea y predicción de la trayectoria del ego. Nuestros resultados muestran que la predicción continua de ocupación geométrica y semántica en 4D proporciona un paradigma de preentrenamiento escalable y efectivo para la conducción autónoma. Para el código y visualizaciones adicionales, consulte \href{https://research.zenseact.com/publications/gasp/.

English

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

GASP: Unificando el Preentrenamiento Autosupervisado Geométrico y Semántico para la Conducción Autónoma

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Resumen

Support