ChatPaper.aiChatPaper

GASP: Vereinheitlichung von geometrischem und semantischem selbstüberwachtem Pre-Training für autonomes Fahren

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

March 19, 2025
Autoren: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI

Zusammenfassung

Selbstüberwachtes Vortraining basierend auf der Vorhersage des nächsten Tokens hat es großen Sprachmodellen ermöglicht, die zugrunde liegende Struktur von Texten zu erfassen, und hat zu beispiellosen Leistungen bei einer Vielzahl von Aufgaben geführt, wenn es in großem Maßstab angewendet wird. In ähnlicher Weise erzeugt das autonome Fahren große Mengen an raumzeitlichen Daten, was auf die Möglichkeit hindeutet, den Maßstab zu nutzen, um die zugrunde liegende geometrische und semantische Struktur der Umgebung und ihre Entwicklung über die Zeit zu erlernen. In diese Richtung schlagen wir eine geometrische und semantische selbstüberwachte Vortrainingsmethode, GASP, vor, die eine einheitliche Repräsentation erlernt, indem sie an jedem abgefragten zukünftigen Punkt in der Raumzeit (1) die allgemeine Belegung, die die sich entwickelnde Struktur der 3D-Szene erfasst; (2) die Ego-Belegung, die den Pfad des Ego-Fahrzeugs durch die Umgebung modelliert; und (3) destillierte hochrangige Merkmale eines Vision-Foundation-Modells vorhersagt. Durch die Modellierung geometrischer und semantischer 4D-Belegungsfelder anstelle von Rohsensormessungen lernt das Modell eine strukturierte, verallgemeinerbare Repräsentation der Umgebung und ihrer Entwicklung über die Zeit. Wir validieren GASP an mehreren Benchmarks für autonomes Fahren und zeigen signifikante Verbesserungen bei der semantischen Belegungsvorhersage, dem Online-Mapping und der Ego-Trajektorienvorhersage. Unsere Ergebnisse zeigen, dass die kontinuierliche 4D-geometrische und semantische Belegungsvorhersage ein skalierbares und effektives Vortrainingsparadigma für das autonome Fahren bietet. Für Code und zusätzliche Visualisierungen siehe \href{https://research.zenseact.com/publications/gasp/.}
English
Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

Summary

AI-Generated Summary

PDF32March 21, 2025