Drive-JEPA: 映像JEPAとマルチモーダル軌跡蒸留を統合したエンドツーエンド運転システム
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving
January 29, 2026
著者: Linhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu
cs.AI
要旨
エンドツーエンド自律走行では、転移可能な経路計画表現を学習するために自己教師あり動画事前学習がますます活用されている。しかし、シーン理解のための動画世界モデルの事前学習は、これまで限定的な改善しかもたらしていない。この制限は、走行の本質的な曖昧性によってさらに悪化している。各シーンは通常、単一の人間の軌跡しか提供しないため、マルチモーダルな行動を学習することが困難である。本研究では、エンドツーエンド走行のためのVideo Joint-Embedding Predictive Architecture(V-JEPA)とマルチモーダル軌跡蒸留を統合したフレームワークであるDrive-JEPAを提案する。まず、V-JEPAをエンドツーエンド走行に適応させ、大規模な走行動画でViTエンコーダを事前学習し、軌跡計画と整合した予測的表現を生成する。次に、人間の軌跡とともにシミュレータで生成された多様な軌跡を蒸留するプロポーザル中心プランナーを導入し、安定かつ安全な行動を促進するモーメンタムを考慮した選択メカニズムを備える。NAVSIMで評価した場合、V-JEPA表現とシンプルなトランスフォーマーベースのデコーダを組み合わせることで、知覚要素を排除した設定において従来手法を3 PDMS上回った。完全なDrive-JEPAフレームワークは、v1で93.3 PDMS、v2で87.8 EPDMSを達成し、新たなstate-of-the-artを確立した。
English
End-to-end autonomous driving increasingly leverages self-supervised video pretraining to learn transferable planning representations. However, pretraining video world models for scene understanding has so far brought only limited improvements. This limitation is compounded by the inherent ambiguity of driving: each scene typically provides only a single human trajectory, making it difficult to learn multimodal behaviors. In this work, we propose Drive-JEPA, a framework that integrates Video Joint-Embedding Predictive Architecture (V-JEPA) with multimodal trajectory distillation for end-to-end driving. First, we adapt V-JEPA for end-to-end driving, pretraining a ViT encoder on large-scale driving videos to produce predictive representations aligned with trajectory planning. Second, we introduce a proposal-centric planner that distills diverse simulator-generated trajectories alongside human trajectories, with a momentum-aware selection mechanism to promote stable and safe behavior. When evaluated on NAVSIM, the V-JEPA representation combined with a simple transformer-based decoder outperforms prior methods by 3 PDMS in the perception-free setting. The complete Drive-JEPA framework achieves 93.3 PDMS on v1 and 87.8 EPDMS on v2, setting a new state-of-the-art.