Drive&Gen: Co-Valutazione di Modelli di Guida End-to-End e Generazione Video
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
Autori: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
Abstract
I recenti progressi nei modelli generativi hanno aperto nuove entusiasmanti possibilità nel campo dei veicoli autonomi. In particolare, i modelli di generazione video sono ora esplorati come ambienti di test virtuali controllabili. Parallelamente, i modelli di guida end-to-end (E2E) sono emersi come un'alternativa semplificata ai tradizionali sistemi modulari di guida autonoma, guadagnando popolarità per la loro semplicità e scalabilità. Tuttavia, l'applicazione di queste tecniche alla simulazione e alla pianificazione solleva importanti interrogativi. In primo luogo, sebbene i modelli di generazione video possano produrre video sempre più realistici, questi video possono aderire fedelmente alle condizioni specificate ed essere sufficientemente realistici per la valutazione dei pianificatori E2E? In secondo luogo, dato che i dati sono cruciali per comprendere e controllare i pianificatori E2E, come possiamo ottenere approfondimenti più profondi sui loro bias e migliorare la loro capacità di generalizzare a scenari fuori distribuzione? In questo lavoro, colmiamo il divario tra i modelli di guida e i modelli generativi del mondo (Drive&Gen) per affrontare queste domande. Proponiamo nuove misure statistiche che sfruttano i driver E2E per valutare il realismo dei video generati. Sfruttando la controllabilità del modello di generazione video, conduciamo esperimenti mirati per indagare i gap distributivi che influenzano le prestazioni dei pianificatori E2E. Infine, dimostriamo che i dati sintetici prodotti dal modello di generazione video offrono un'alternativa economica alla raccolta di dati nel mondo reale. Questi dati sintetici migliorano efficacemente la generalizzazione del modello E2E oltre i Domini Operativi di Progetto esistenti, facilitando l'espansione dei servizi di veicoli autonomi in nuovi contesti operativi.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.