GASP : Unification du pré-entraînement auto-supervisé géométrique et sémantique pour la conduite autonome

papers.abstract

Le pré-entraînement auto-supervisé basé sur la prédiction du token suivant a permis aux grands modèles de langage de capturer la structure sous-jacente du texte, conduisant à des performances sans précédent sur un large éventail de tâches lorsqu'il est appliqué à grande échelle. De même, la conduite autonome génère d'immenses quantités de données spatio-temporelles, suggérant la possibilité d'exploiter l'échelle pour apprendre la structure géométrique et sémantique sous-jacente de l'environnement et son évolution dans le temps. Dans cette direction, nous proposons une méthode de pré-entraînement auto-supervisé géométrique et sémantique, GASP, qui apprend une représentation unifiée en prédisant, à tout point futur interrogé dans l'espace-temps, (1) l'occupation générale, capturant la structure évolutive de la scène 3D ; (2) l'occupation ego, modélisant la trajectoire du véhicule ego à travers l'environnement ; et (3) des caractéristiques de haut niveau distillées à partir d'un modèle de fondation visuelle. En modélisant des champs d'occupation géométriques et sémantiques 4D plutôt que des mesures brutes des capteurs, le modèle apprend une représentation structurée et généralisable de l'environnement et de son évolution dans le temps. Nous validons GASP sur plusieurs benchmarks de conduite autonome, démontrant des améliorations significatives dans la prévision de l'occupation sémantique, la cartographie en ligne et la prédiction de la trajectoire ego. Nos résultats montrent que la prédiction continue de l'occupation géométrique et sémantique 4D fournit un paradigme de pré-entraînement scalable et efficace pour la conduite autonome. Pour le code et des visualisations supplémentaires, voir \href{https://research.zenseact.com/publications/gasp/.

English

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

GASP : Unification du pré-entraînement auto-supervisé géométrique et sémantique pour la conduite autonome

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

papers.abstract

Support