Drive-JEPA : JEPA vidéo et distillation de trajectoire multimodale pour la conduite de bout en bout
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
papers.authors: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
papers.abstract
La conduite autonome de bout en bout exploite de plus en plus le pré-entraînement vidéo auto-supervisé pour apprendre des représentations de planification transférables. Cependant, le pré-entraînement de modèles mondes vidéo pour la compréhension de scène n'a jusqu'à présent apporté que des améliorations limitées. Cette limitation est aggravée par l'ambiguïté inhérente à la conduite : chaque scène ne fournit typiquement qu'une seule trajectoire humaine, rendant difficile l'apprentissage de comportements multimodaux. Dans ce travail, nous proposons Drive-JEPA, un cadre qui intègre l'Architecture Prédictive à Codage Conjoint Vidéo (V-JEPA) avec une distillation de trajectoires multimodales pour la conduite de bout en bout. Premièrement, nous adaptons V-JEPA pour la conduite de bout en bout, en pré-entraînant un encodeur ViT sur de grandes vidéos de conduite pour produire des représentations prédictives alignées avec la planification de trajectoire. Deuxièmement, nous introduisons un planificateur centré sur les propositions qui distille des trajectoires diverses générées par simulateur aux côtés des trajectoires humaines, avec un mécanisme de sélection sensible à la quantité de mouvement pour promouvoir un comportement stable et sûr. Lorsqu'elle est évaluée sur NAVSIM, la représentation V-JEPA combinée à un décodeur simple basé sur un transformateur surpasse les méthodes antérieures de 3 PDMS dans le cadre sans perception. Le cadre complet Drive-JEPA atteint 93,3 PDMS sur la version 1 et 87,8 EPDMS sur la version 2, établissant un nouvel état de l'art.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.