Drive-JEPA: Video JEPA en Multimodale Trajectorie-distillatie voor End-to-End Rijden
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
Auteurs: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
Samenvatting
End-to-end autonoom rijden maakt in toenemende mate gebruik van zelfgesuperviseerde videopretraining om overdraagbare planningsrepresentaties te leren. Tot nu toe heeft het pretrainen van videowereldmodellen voor scènebegrip echter slechts beperkte verbeteringen opgeleverd. Deze beperking wordt versterkt door de inherente ambiguïteit van rijgedrag: elke scène biedt doorgaans slechts één menselijke trajectorie, waardoor het moeilijk is multimodale gedragingen aan te leren. In dit werk stellen we Drive-JEPA voor, een raamwerk dat Video Joint-Embedding Predictive Architecture (V-JEPA) integreert met multimodale trajectdistillatie voor end-to-end rijden. Ten eerste passen we V-JEPA aan voor end-to-end rijden door een ViT-encoder te pretrainen op grootschalige rijvideo's, om voorspellende representaties te creëren die zijn afgestemd op trajectplanning. Ten tweede introduceren we een proposal-gecentreerde planner die diverse door een simulator gegenereerde trajectorieën distilleren naast menselijke trajectorieën, met een momentum-aware selectiemechanisme om stabiel en veilig gedrag te bevorderen. Bij evaluatie op NAVSIM overtreft de V-JEPA-representatie gecombineerd met een eenvoudige op transformers gebaseerde decoder eerdere methoden met 3 PDMS in de perceptievrije setting. Het complete Drive-JEPA-raamwerk behaalt 93.3 PDMS op v1 en 87.8 EPDMS op v2, wat een nieuwe state-of-the-art vertegenwoordigt.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.