드라이브-JEPA: 엔드투엔드 주행을 위한 비디오 JEPA와 멀티모달 궤적 지식 증류의 결합
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
저자: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
초록
종단형 자율 주행은 전이 가능한 주행 계획 표현을 학습하기 위해 자기 지도 비디오 사전 학습을 점점 더 많이 활용하고 있습니다. 그러나 장면 이해를 위한 비디오 세계 모델 사전 학습은 지금까지 제한된 성능 향상만을 가져왔습니다. 이러한 한계는 주행의 본질적인 모호성으로 인해 더욱 두드러집니다: 각 장면은 일반적으로 단일 인간 궤적만 제공되어 다중 모드 행동을 학습하기 어렵게 만듭니다. 본 연구에서는 종단형 주행을 위해 Video Joint-Embedding Predictive Architecture(V-JEPA)와 다중 모드 궤적 추출을 통합한 Drive-JEPA 프레임워크를 제안합니다. 첫째, 대규모 주행 비디오에서 ViT 인코더를 사전 학습하여 궤적 계획과 정렬된 예측 표현을 생성하도록 V-JEPA를 종단형 주행에 적용합니다. 둘째, 인간 궤적과 함께 시뮬레이터에서 생성된 다양한 궤적을 추출하고, 안정적이고 안전한 행동을 촉진하기 위한 모멘텀 인식 선택 메커니즘을 갖춘 제안 중심 계획기를 도입합니다. NAVSIM에서 평가했을 때, V-JEPA 표현과 간단한 트랜스포머 기반 디코더를 결합한 방법은 인식 불요 설정에서 기존 방법보다 PDMS 3점 높은 성능을 보였습니다. 완전한 Drive-JEPA 프레임워크는 v1에서 93.3 PDMS, v2에서 87.8 EPDMS를 달성하여 새로운 최첨단 기술을 제시합니다.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.