Drive-JEPA: Video JEPA trifft auf multimodale Trajektorien-Distillation für End-to-End-Fahren
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
papers.authors: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
papers.abstract
End-to-End autonomes Fahren nutzt zunehmend selbstüberwachtes Video-Pretraining, um übertragbare Planungsrepräsentationen zu erlernen. Bisher hat das Pretraining von Video-Weltmodellen für das Szenenverständnis jedoch nur begrenzte Verbesserungen gebracht. Diese Einschränkung wird durch die inhärente Mehrdeutigkeit des Fahrens verstärkt: Jede Szene liefert typischerweise nur eine einzige menschliche Trajektorie, was das Erlernen multimodaler Verhaltensweisen erschwert. In dieser Arbeit schlagen wir Drive-JEPA vor, ein Framework, das die Video Joint-Embedding Predictive Architecture (V-JEPA) mit multimodaler Trajektorien-Distillation für End-to-End-Fahren integriert. Zunächst passen wir V-JEPA für End-to-End-Fahren an, indem wir einen ViT-Encoder auf groß angelegten Fahrvideos vortrainieren, um prädiktive Repräsentationen zu erzeugen, die mit der Trajektorienplanung abgestimmt sind. Zweitens führen wir einen vorschlagszentrierten Planer ein, der verschiedene, simulatorgenerierte Trajektorien zusammen mit menschlichen Trajektorien distilliert, ergänzt durch einen impulsbewussten Auswahlmechanismus zur Förderung stabilen und sicheren Verhaltens. Bei der Auswertung auf NAVSIM übertrifft die V-JEPA-Repräsentation in Kombination mit einem einfachen transformerbasierten Decoder frühere Methoden um 3 PDMS im wahrnehmungsfreien Setting. Das vollständige Drive-JEPA-Framework erreicht 93,3 PDMS auf v1 und 87,8 EPDMS auf v2 und setzt damit einen neuen State-of-the-Art.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.