GASP: Unificando o Pré-treinamento Autossupervisionado Geométrico e Semântico para Condução Autônoma

Resumo

O pré-treinamento auto-supervisionado baseado na previsão do próximo token permitiu que grandes modelos de linguagem capturassem a estrutura subjacente do texto, levando a um desempenho sem precedentes em uma ampla gama de tarefas quando aplicado em escala. Da mesma forma, a condução autônoma gera grandes quantidades de dados espaço-temporais, sugerindo a possibilidade de aproveitar a escala para aprender a estrutura geométrica e semântica subjacente do ambiente e sua evolução ao longo do tempo. Nessa direção, propomos um método de pré-treinamento auto-supervisionado geométrico e semântico, GASP, que aprende uma representação unificada prevendo, em qualquer ponto futuro consultado no espaço-tempo, (1) a ocupação geral, capturando a estrutura evolutiva da cena 3D; (2) a ocupação do ego, modelando o trajeto do veículo ego pelo ambiente; e (3) características de alto nível destiladas de um modelo de fundação de visão. Ao modelar campos de ocupação geométrica e semântica 4D em vez de medições brutas de sensores, o modelo aprende uma representação estruturada e generalizável do ambiente e sua evolução ao longo do tempo. Validamos o GASP em vários benchmarks de condução autônoma, demonstrando melhorias significativas na previsão de ocupação semântica, mapeamento online e previsão da trajetória do ego. Nossos resultados mostram que a previsão contínua de ocupação geométrica e semântica 4D fornece um paradigma de pré-treinamento escalável e eficaz para a condução autônoma. Para código e visualizações adicionais, consulte \href{https://research.zenseact.com/publications/gasp/.

English

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

GASP: Unificando o Pré-treinamento Autossupervisionado Geométrico e Semântico para Condução Autônoma

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Resumo

Support