Drive&Gen : Co-évaluation des modèles de conduite end-to-end et de génération vidéo
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
papers.authors: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
papers.abstract
Les récentes avancées dans les modèles génératifs ont ouvert de nouvelles perspectives passionnantes dans le domaine des véhicules autonomes. Plus précisément, les modèles de génération vidéo sont désormais explorés comme des environnements de test virtuels contrôlables. Parallèlement, les modèles de conduite de bout en bout (E2E) se sont imposés comme une alternative simplifiée aux systèmes de conduite autonome modulaires traditionnels, gagnant en popularité grâce à leur simplicité et leur évolutivité. Cependant, l'application de ces techniques à la simulation et à la planification soulève des questions importantes. Premièrement, bien que les modèles de génération vidéo puissent produire des vidéos de plus en plus réalistes, ces vidéos peuvent-elles respecter fidèlement les conditions spécifiées et être suffisamment réalistes pour l'évaluation des planificateurs autonomes E2E ? Deuxièmement, étant donné que les données sont cruciales pour comprendre et contrôler les planificateurs E2E, comment pouvons-nous obtenir des insights plus approfondis sur leurs biais et améliorer leur capacité à généraliser à des scénarios hors distribution ? Dans ce travail, nous comblons le fossé entre les modèles de conduite et les modèles génératifs de monde (Drive&Gen) pour répondre à ces questions. Nous proposons de nouvelles mesures statistiques exploitant les conducteurs E2E pour évaluer le réalisme des vidéos générées. En tirant parti de la contrôlabilité du modèle de génération vidéo, nous menons des expériences ciblées pour étudier les écarts de distribution affectant les performances des planificateurs E2E. Enfin, nous montrons que les données synthétiques produites par le modèle de génération vidéo offrent une alternative rentable à la collecte de données réelles. Ces données synthétiques améliorent efficacement la généralisation des modèles E2E au-delà des Domaines de Conception Opérationnelle existants, facilitant ainsi l'expansion des services de véhicules autonomes dans de nouveaux contextes opérationnels.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.