Drive-JEPA: Видео-JEPA в сочетании с многомодальным дистилляцией траекторий для сквозного управления автомобилем
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
Авторы: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
Аннотация
В системах сквозного автономного вождения все чаще используется самоконтролируемое предварительное обучение на видеоданных для получения переносимых представлений планирования траектории. Однако предварительное обучение видео-моделей мира для понимания сцены до сих пор приносило лишь ограниченные улучшения. Это ограничение усугубляется присущей вождению неоднозначностью: каждая сцена обычно содержит лишь одну человеческую траекторию, что затрудняет изучение многомодального поведения. В данной работе мы предлагаем Drive-JEPA — фреймворк, объединяющий Видео-Архитектуру Прогнозирования в Совместном Пространстве Признаков (V-JEPA) с дистилляцией многомодальных траекторий для сквозного автономного вождения. Во-первых, мы адаптируем V-JEPA для сквозного вождения, предварительно обучая ViT-энкодер на масштабных видеозаписях вождения для генерации прогнозных представлений, согласованных с планированием траектории. Во-вторых, мы представляем планировщик, ориентированный на предложения, который дистиллирует разнообразные траектории, сгенерированные в симуляторе, вместе с человеческими траекториями, используя механизм выбора с учетом импульса для повышения стабильности и безопасности поведения. При оценке на NAVSIM представления V-JEPA в сочетании с простым трансформер-декодером превосходят предыдущие методы на 3 PDMS в условиях отсутствия восприятия. Полный фреймворк Drive-JEPA достигает 93.3 PDMS на v1 и 87.8 EPDMS на v2, устанавливая новый state-of-the-art результат.
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.