Drive-JEPA: JEPA de Vídeo Encontra a Distilação de Trajetória Multimodal para Condução End-to-End
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
Autores: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
Resumo
A condução autónoma de ponta a ponta recorre cada vez mais ao pré-treinamento de vídeo auto-supervisionado para aprender representações de planeamento transferíveis. No entanto, o pré-treinamento de modelos de mundo de vídeo para compreensão de cena tem, até agora, proporcionado apenas melhorias limitadas. Esta limitação é agravada pela ambiguidade inerente à condução: cada cenário normalmente fornece apenas uma trajetória humana única, dificultando a aprendizagem de comportamentos multimodais. Neste trabalho, propomos o Drive-JEPA, uma estrutura que integra a Video Joint-Embedding Predictive Architecture (V-JEPA) com destilação de trajetória multimodal para condução de ponta a ponta. Primeiro, adaptamos a V-JEPA para condução de ponta a ponta, pré-treinando um codificador ViT em vídeos de condução em grande escala para produzir representações preditivas alinhadas com o planeamento de trajetória. Segundo, introduzimos um planeador centrado em propostas que destila diversas trajetórias geradas por simulador juntamente com trajetórias humanas, com um mecanismo de seleção sensível ao momento para promover comportamentos estáveis e seguros. Quando avaliado no NAVSIM, a representação V-JEPA combinada com um descodificador simples baseado em transformer supera métodos anteriores em 3 PDMS no cenário livre de perceção. A estrutura completa Drive-JEPA atinge 93.3 PDMS na versão 1 e 87.8 EPDMS na versão 2, estabelecendo um novo estado da arte.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.