Drive&Gen: Gemeinsame Bewertung von End-to-End-Fahr- und Videogenerierungsmodellen
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
papers.authors: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
papers.abstract
Jüngste Fortschritte bei generativen Modellen haben spannende neue Möglichkeiten im Bereich der autonomen Fahrzeuge eröffnet. Insbesondere werden Videogenerierungsmodelle derzeit als steuerbare virtuelle Testumgebungen erforscht. Gleichzeitig haben End-to-End (E2E)-Fahrmodelle als effiziente Alternative zu herkömmlichen modularen autonomen Fahrzeugsystemen an Beliebtheit gewonnen, da sie sich durch ihre Einfachheit und Skalierbarkeit auszeichnen. Die Anwendung dieser Techniken auf Simulation und Planung wirft jedoch wichtige Fragen auf. Erstens: Obwohl Videogenerierungsmodelle zunehmend realistische Videos erzeugen können, können diese Videos den vorgegebenen Bedingungen treu folgen und realistisch genug sein, um E2E-autonome Planer zu bewerten? Zweitens: Da Daten entscheidend für das Verständnis und die Steuerung von E2E-Planern sind, wie können wir tiefere Einblicke in deren Verzerrungen gewinnen und ihre Fähigkeit verbessern, auf außerhalb der Trainingsverteilung liegende Szenarien zu generalisieren? In dieser Arbeit schließen wir die Lücke zwischen Fahrmodellen und generativen Weltmodellen (Drive&Gen), um diese Fragen zu beantworten. Wir schlagen neuartige statistische Maßnahmen vor, die E2E-Fahrmodelle nutzen, um den Realismus generierter Videos zu bewerten. Durch die Ausnutzung der Steuerbarkeit des Videogenerierungsmodells führen wir gezielte Experimente durch, um Verteilungslücken zu untersuchen, die die Leistung von E2E-Planern beeinflussen. Schließlich zeigen wir, dass synthetische Daten, die vom Videogenerierungsmodell erzeugt werden, eine kostengünstige Alternative zur Datenerfassung in der realen Welt darstellen. Diese synthetischen Daten verbessern effektiv die Generalisierungsfähigkeit von E2E-Modellen über bestehende Operational Design Domains hinaus und erleichtern die Ausweitung autonomer Fahrzeugdienste auf neue Einsatzbereiche.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.