GASP: 자율 주행을 위한 기하학적 및 의미론적 자기 지도 사전 학습의 통합
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
March 19, 2025
저자: William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg
cs.AI
초록
다음 토큰 예측 기반의 자기 지도 사전 학습은 대규모 언어 모델이 텍스트의 기본 구조를 포착할 수 있게 하여, 대규모로 적용될 때 다양한 작업에서 전례 없는 성능을 달성하게 했습니다. 마찬가지로, 자율 주행은 방대한 양의 시공간 데이터를 생성하며, 이를 통해 환경의 기하학적 및 의미론적 구조와 시간에 따른 변화를 학습할 가능성을 시사합니다. 이러한 방향에서, 우리는 기하학적 및 의미론적 자기 지도 사전 학습 방법인 GASP를 제안합니다. GASP는 시공간 내의 임의의 미래 지점에서 (1) 3D 장면의 변화하는 구조를 포착하는 일반 점유율, (2) 환경을 통과하는 자체 차량 경로를 모델링하는 자체 점유율, 그리고 (3) 비전 기반 모델에서 추출된 고수준 특징을 예측함으로써 통합된 표현을 학습합니다. 원시 센서 측정값 대신 기하학적 및 의미론적 4D 점유 필드를 모델링함으로써, 이 모델은 환경과 시간에 따른 변화를 구조화되고 일반화 가능한 표현으로 학습합니다. 우리는 GASP를 여러 자율 주행 벤치마크에서 검증하며, 의미론적 점유율 예측, 온라인 매핑, 자체 궤적 예측에서의 상당한 개선을 입증합니다. 우리의 결과는 연속적인 4D 기하학적 및 의미론적 점유율 예측이 자율 주행을 위한 확장 가능하고 효과적인 사전 학습 패러다임을 제공함을 보여줍니다. 코드 및 추가 시각화 자료는 \href{https://research.zenseact.com/publications/gasp/}에서 확인할 수 있습니다.
English
Self-supervised pre-training based on next-token prediction has enabled large
language models to capture the underlying structure of text, and has led to
unprecedented performance on a large array of tasks when applied at scale.
Similarly, autonomous driving generates vast amounts of spatiotemporal data,
alluding to the possibility of harnessing scale to learn the underlying
geometric and semantic structure of the environment and its evolution over
time. In this direction, we propose a geometric and semantic self-supervised
pre-training method, GASP, that learns a unified representation by predicting,
at any queried future point in spacetime, (1) general occupancy, capturing the
evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle
path through the environment; and (3) distilled high-level features from a
vision foundation model. By modeling geometric and semantic 4D occupancy fields
instead of raw sensor measurements, the model learns a structured,
generalizable representation of the environment and its evolution through time.
We validate GASP on multiple autonomous driving benchmarks, demonstrating
significant improvements in semantic occupancy forecasting, online mapping, and
ego trajectory prediction. Our results demonstrate that continuous 4D geometric
and semantic occupancy prediction provides a scalable and effective
pre-training paradigm for autonomous driving. For code and additional
visualizations, see \href{https://research.zenseact.com/publications/gasp/.Summary
AI-Generated Summary