GASP : Unification du pré-entraînement auto-supervisé géométrique et sémantique pour la conduite autonome
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
Auteurs: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
Résumé
Le pré-entraînement auto-supervisé basé sur la prédiction du token suivant a permis aux grands modèles de langage de capturer la structure sous-jacente du texte, conduisant à des performances sans précédent sur un large éventail de tâches lorsqu'il est appliqué à grande échelle. De même, la conduite autonome génère d'immenses quantités de données spatio-temporelles, suggérant la possibilité d'exploiter l'échelle pour apprendre la structure géométrique et sémantique sous-jacente de l'environnement et son évolution dans le temps. Dans cette direction, nous proposons une méthode de pré-entraînement auto-supervisé géométrique et sémantique, GASP, qui apprend une représentation unifiée en prédisant, à tout point futur interrogé dans l'espace-temps, (1) l'occupation générale, capturant la structure évolutive de la scène 3D ; (2) l'occupation ego, modélisant la trajectoire du véhicule ego à travers l'environnement ; et (3) des caractéristiques de haut niveau distillées à partir d'un modèle de fondation visuelle. En modélisant des champs d'occupation géométriques et sémantiques 4D plutôt que des mesures brutes des capteurs, le modèle apprend une représentation structurée et généralisable de l'environnement et de son évolution dans le temps. Nous validons GASP sur plusieurs benchmarks de conduite autonome, démontrant des améliorations significatives dans la prévision de l'occupation sémantique, la cartographie en ligne et la prédiction de la trajectoire ego. Nos résultats montrent que la prédiction continue de l'occupation géométrique et sémantique 4D fournit un paradigme de pré-entraînement scalable et efficace pour la conduite autonome. Pour le code et des visualisations supplémentaires, voir \href{https://research.zenseact.com/publications/gasp/.
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.Summary
AI-Generated Summary