Drive-JEPA: Video JEPA se encuentra con la destilación de trayectorias multimodales para la conducción de extremo a extremo
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
Autores: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
Resumen
La conducción autónoma de extremo a extremo aprovecha cada vez más el preentrenamiento de vídeo autosupervisado para aprender representaciones de planificación transferibles. Sin embargo, hasta ahora, el preentrenamiento de modelos mundiales de vídeo para la comprensión de escenas ha aportado mejoras limitadas. Esta limitación se ve agravada por la ambigüedad inherente de la conducción: cada escena generalmente proporciona solo una trayectoria humana, lo que dificulta el aprendizaje de comportamientos multimodales. En este trabajo, proponemos Drive-JEPA, un marco que integra la Arquitectura Predictiva de Incrustación Conjunta de Vídeo (V-JEPA) con la destilación multimodal de trayectorias para la conducción de extremo a extremo. Primero, adaptamos V-JEPA para la conducción de extremo a extremo, preentrenando un codificador ViT en vídeos de conducción a gran escala para producir representaciones predictivas alineadas con la planificación de trayectorias. En segundo lugar, introducimos un planificador centrado en propuestas que destila diversas trayectorias generadas por simulador junto con trayectorias humanas, con un mecanismo de selección consciente del momentum para promover un comportamiento estable y seguro. Al evaluar en NAVSIM, la representación V-JEPA combinada con un decodificador simple basado en transformadores supera a métodos anteriores por 3 PDMS en el entorno libre de percepción. El marco completo Drive-JEPA alcanza 93.3 PDMS en v1 y 87.8 EPDMS en v2, estableciendo un nuevo estado del arte.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.