GASP: 自動運転のための幾何学的および意味論的自己教師あり事前学習の統合
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
著者: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
要旨
次トークン予測に基づく自己教師あり事前学習により、大規模言語モデルはテキストの基本構造を捉えることが可能となり、大規模に適用することで幅広いタスクで前例のない性能を達成しました。同様に、自動運転は膨大な量の時空間データを生成し、その規模を活用して環境の幾何学的・意味的構造とその時間的変化を学習する可能性を示唆しています。この方向性において、我々は幾何学的・意味的自己教師あり事前学習手法GASPを提案します。GASPは、時空間内の任意の未来点において、(1) 3Dシーンの進化する構造を捉える一般占有、(2) 環境内の自車両経路をモデル化する自車占有、(3) 視覚基盤モデルから抽出された高レベル特徴を予測することで、統一された表現を学習します。生のセンサーデータではなく幾何学的・意味的4D占有場をモデル化することで、モデルは環境とその時間的変化の構造化され汎化可能な表現を学習します。我々はGASPを複数の自動運転ベンチマークで検証し、意味的占有予測、オンラインマッピング、自車軌道予測において大幅な改善を示しました。我々の結果は、連続的な4D幾何学的・意味的占有予測が自動運転のためのスケーラブルで効果的な事前学習パラダイムを提供することを実証しています。コードと追加の可視化については、\href{https://research.zenseact.com/publications/gasp/}をご覧ください。
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.Summary
AI-Generated Summary