Drive&Gen: Gezamenlijke Evaluatie van End-to-End Rij- en Videogeneratiemodellen
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
Auteurs: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
Samenvatting
Recente ontwikkelingen in generatieve modellen hebben nieuwe, spannende mogelijkheden geopend op het gebied van autonome voertuigen. Met name videogeneratiemodellen worden nu onderzocht als beheersbare virtuele testomgevingen. Tegelijkertijd zijn end-to-end (E2E) rijmodellen naar voren gekomen als een gestroomlijnd alternatief voor conventionele modulaire autonome rijsystemen, en winnen ze aan populariteit vanwege hun eenvoud en schaalbaarheid. De toepassing van deze technieken op simulatie en planning roept echter belangrijke vragen op. Ten eerste: hoewel videogeneratiemodellen steeds realistischer video's kunnen genereren, kunnen deze video's trouw blijven aan de gespecificeerde voorwaarden en realistisch genoeg zijn voor de evaluatie van E2E autonome planners? Ten tweede: aangezien data cruciaal is voor het begrijpen en beheersen van E2E-planners, hoe kunnen we dieper inzicht krijgen in hun vooroordelen en hun vermogen verbeteren om te generaliseren naar out-of-distribution scenario's? In dit werk overbruggen we de kloof tussen de rijmodellen en generatieve wereldmodellen (Drive&Gen) om deze vragen te beantwoorden. We introduceren nieuwe statistische maatstaven die gebruikmaken van E2E-rijmodellen om de realisme van gegenereerde video's te evalueren. Door de beheersbaarheid van het videogeneratiemodel te benutten, voeren we gerichte experimenten uit om distributiekloof te onderzoeken die de prestaties van E2E-planners beïnvloeden. Tot slot tonen we aan dat synthetische data, gegenereerd door het videogeneratiemodel, een kosteneffectief alternatief biedt voor het verzamelen van real-world data. Deze synthetische data verbetert effectief de generalisatie van E2E-modellen buiten bestaande Operationele Ontwerpdomeinen, wat de uitbreiding van autonome voertuigdiensten naar nieuwe operationele contexten vergemakkelijkt.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.