Drive-JEPA: Video JEPA incontra la distillazione di traiettorie multimodali per la guida end-to-end
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
Autori: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
Abstract
La guida autonoma end-to-end utilizza sempre più il pre-addestramento video auto-supervisionato per apprendere rappresentazioni pianificabili trasferibili. Tuttavia, il pre-addestramento di modelli video del mondo per la comprensione della scena ha finora portato solo miglioramenti limitati. Questa limitazione è aggravata dall'ambiguità intrinseca della guida: ogni scena fornisce tipicamente una sola traiettoria umana, rendendo difficile l'apprendimento di comportamenti multimodali. In questo lavoro, proponiamo Drive-JEPA, un framework che integra la Video Joint-Embedding Predictive Architecture (V-JEPA) con la distillazione di traiettorie multimodali per la guida end-to-end. In primo luogo, adattiamo V-JEPA per la guida end-to-end, pre-addestrando un codificatore ViT su video di guida su larga scala per produrre rappresentazioni predittive allineate con la pianificazione della traiettoria. In secondo luogo, introduciamo un pianificatore centrato sulle proposte che distilla traiettorie generate dal simulatore insieme a traiettorie umane, con un meccanismo di selezione momentum-aware per promuovere comportamenti stabili e sicuri. Quando valutato su NAVSIM, la rappresentazione V-JEPA combinata con un semplice decoder basato su transformer supera i metodi precedenti di 3 PDMS nell'impostazione priva di percezione. Il framework completo Drive-JEPA raggiunge 93.3 PDMS su v1 e 87.8 EPDMS su v2, stabilendo un nuovo stato dell'arte.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.