GASP: Unificazione dell'Addestramento Preliminare Autosupervisionato Geometrico e Semantico per la Guida Autonoma

Abstract

Il pre-addestramento auto-supervisionato basato sulla previsione del token successivo ha permesso ai grandi modelli linguistici di catturare la struttura sottostante del testo, portando a prestazioni senza precedenti su un'ampia gamma di compiti quando applicato su larga scala. Allo stesso modo, la guida autonoma genera enormi quantità di dati spazio-temporali, suggerendo la possibilità di sfruttare la scala per apprendere la struttura geometrica e semantica sottostante dell'ambiente e la sua evoluzione nel tempo. In questa direzione, proponiamo un metodo di pre-addestramento auto-supervisionato geometrico e semantico, GASP, che apprende una rappresentazione unificata prevedendo, in qualsiasi punto futuro nello spazio-tempo, (1) l'occupazione generale, catturando la struttura in evoluzione della scena 3D; (2) l'occupazione ego, modellando il percorso del veicolo ego attraverso l'ambiente; e (3) caratteristiche di alto livello distillate da un modello di fondazione visiva. Modellando campi di occupazione geometrica e semantica 4D invece di misurazioni grezze dei sensori, il modello apprende una rappresentazione strutturata e generalizzabile dell'ambiente e della sua evoluzione nel tempo. Validiamo GASP su molteplici benchmark di guida autonoma, dimostrando miglioramenti significativi nella previsione dell'occupazione semantica, nella mappatura online e nella previsione della traiettoria ego. I nostri risultati dimostrano che la previsione continua dell'occupazione geometrica e semantica 4D fornisce un paradigma di pre-addestramento scalabile ed efficace per la guida autonoma. Per il codice e ulteriori visualizzazioni, consultare \href{https://research.zenseact.com/publications/gasp/.}

English

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

GASP: Unificazione dell'Addestramento Preliminare Autosupervisionato Geometrico e Semantico per la Guida Autonoma

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Abstract

Support