ChatPaper.aiChatPaper

GASP: Het verenigen van geometrische en semantische zelfsupervisie voorafgaande training voor autonoom rijden

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

March 19, 2025
Auteurs: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI

Samenvatting

Zelfsupervised vooraf trainen op basis van voorspelling van het volgende token heeft grote taalmodelen in staat gesteld de onderliggende structuur van tekst te leren, wat heeft geleid tot ongekende prestaties op een breed scala aan taken wanneer het op grote schaal wordt toegepast. Op vergelijkbare wijze genereert autonoom rijden enorme hoeveelheden ruimtelijk-temporele data, wat de mogelijkheid suggereert om schaal te benutten om de onderliggende geometrische en semantische structuur van de omgeving en de evolutie ervan in de tijd te leren. In deze richting stellen we een geometrische en semantische zelfsupervised vooraf trainingsmethode voor, GASP, die een uniforme representatie leert door, op elk opgevraagd toekomstig punt in ruimtetijd, te voorspellen: (1) algemene bezetting, die de evoluerende structuur van de 3D-scène vastlegt; (2) ego-bezetting, die het pad van het ego-voertuig door de omgeving modelleert; en (3) gedestilleerde hoogwaardige kenmerken van een visie-foundationmodel. Door geometrische en semantische 4D-bezettingsvelden te modelleren in plaats van ruwe sensormetingen, leert het model een gestructureerde, generaliseerbare representatie van de omgeving en de evolutie ervan in de tijd. We valideren GASP op meerdere benchmarks voor autonoom rijden, waarbij we significante verbeteringen aantonen in semantische bezettingsvoorspelling, online mapping en ego-trajectvoorspelling. Onze resultaten tonen aan dat continue 4D-geometrische en semantische bezettingsvoorspelling een schaalbare en effectieve vooraf trainingsparadigma biedt voor autonoom rijden. Voor code en aanvullende visualisaties, zie \href{https://research.zenseact.com/publications/gasp/.}
English
Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

Summary

AI-Generated Summary

PDF32March 21, 2025