GASP: Unificando o Pré-treinamento Autossupervisionado Geométrico e Semântico para Condução Autônoma
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
Autores: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
Resumo
O pré-treinamento auto-supervisionado baseado na previsão do próximo token permitiu que grandes modelos de linguagem capturassem a estrutura subjacente do texto, levando a um desempenho sem precedentes em uma ampla gama de tarefas quando aplicado em escala. Da mesma forma, a condução autônoma gera grandes quantidades de dados espaço-temporais, sugerindo a possibilidade de aproveitar a escala para aprender a estrutura geométrica e semântica subjacente do ambiente e sua evolução ao longo do tempo. Nessa direção, propomos um método de pré-treinamento auto-supervisionado geométrico e semântico, GASP, que aprende uma representação unificada prevendo, em qualquer ponto futuro consultado no espaço-tempo, (1) a ocupação geral, capturando a estrutura evolutiva da cena 3D; (2) a ocupação do ego, modelando o trajeto do veículo ego pelo ambiente; e (3) características de alto nível destiladas de um modelo de fundação de visão. Ao modelar campos de ocupação geométrica e semântica 4D em vez de medições brutas de sensores, o modelo aprende uma representação estruturada e generalizável do ambiente e sua evolução ao longo do tempo. Validamos o GASP em vários benchmarks de condução autônoma, demonstrando melhorias significativas na previsão de ocupação semântica, mapeamento online e previsão da trajetória do ego. Nossos resultados mostram que a previsão contínua de ocupação geométrica e semântica 4D fornece um paradigma de pré-treinamento escalável e eficaz para a condução autônoma. Para código e visualizações adicionais, consulte \href{https://research.zenseact.com/publications/gasp/.
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.