GASP: Unificazione dell'Addestramento Preliminare Autosupervisionato Geometrico e Semantico per la Guida Autonoma
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
Autori: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
Abstract
Il pre-addestramento auto-supervisionato basato sulla previsione del token successivo ha permesso ai grandi modelli linguistici di catturare la struttura sottostante del testo, portando a prestazioni senza precedenti su un'ampia gamma di compiti quando applicato su larga scala. Allo stesso modo, la guida autonoma genera enormi quantità di dati spazio-temporali, suggerendo la possibilità di sfruttare la scala per apprendere la struttura geometrica e semantica sottostante dell'ambiente e la sua evoluzione nel tempo. In questa direzione, proponiamo un metodo di pre-addestramento auto-supervisionato geometrico e semantico, GASP, che apprende una rappresentazione unificata prevedendo, in qualsiasi punto futuro nello spazio-tempo, (1) l'occupazione generale, catturando la struttura in evoluzione della scena 3D; (2) l'occupazione ego, modellando il percorso del veicolo ego attraverso l'ambiente; e (3) caratteristiche di alto livello distillate da un modello di fondazione visiva. Modellando campi di occupazione geometrica e semantica 4D invece di misurazioni grezze dei sensori, il modello apprende una rappresentazione strutturata e generalizzabile dell'ambiente e della sua evoluzione nel tempo. Validiamo GASP su molteplici benchmark di guida autonoma, dimostrando miglioramenti significativi nella previsione dell'occupazione semantica, nella mappatura online e nella previsione della traiettoria ego. I nostri risultati dimostrano che la previsione continua dell'occupazione geometrica e semantica 4D fornisce un paradigma di pre-addestramento scalabile ed efficace per la guida autonoma. Per il codice e ulteriori visualizzazioni, consultare \href{https://research.zenseact.com/publications/gasp/.}
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.