ChatPaper.aiChatPaper

Drive&Gen: Co-Valutazione di Modelli di Guida End-to-End e Generazione Video

Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models

October 7, 2025
Autori: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI

Abstract

I recenti progressi nei modelli generativi hanno aperto nuove entusiasmanti possibilità nel campo dei veicoli autonomi. In particolare, i modelli di generazione video sono ora esplorati come ambienti di test virtuali controllabili. Parallelamente, i modelli di guida end-to-end (E2E) sono emersi come un'alternativa semplificata ai tradizionali sistemi modulari di guida autonoma, guadagnando popolarità per la loro semplicità e scalabilità. Tuttavia, l'applicazione di queste tecniche alla simulazione e alla pianificazione solleva importanti interrogativi. In primo luogo, sebbene i modelli di generazione video possano produrre video sempre più realistici, questi video possono aderire fedelmente alle condizioni specificate ed essere sufficientemente realistici per la valutazione dei pianificatori E2E? In secondo luogo, dato che i dati sono cruciali per comprendere e controllare i pianificatori E2E, come possiamo ottenere approfondimenti più profondi sui loro bias e migliorare la loro capacità di generalizzare a scenari fuori distribuzione? In questo lavoro, colmiamo il divario tra i modelli di guida e i modelli generativi del mondo (Drive&Gen) per affrontare queste domande. Proponiamo nuove misure statistiche che sfruttano i driver E2E per valutare il realismo dei video generati. Sfruttando la controllabilità del modello di generazione video, conduciamo esperimenti mirati per indagare i gap distributivi che influenzano le prestazioni dei pianificatori E2E. Infine, dimostriamo che i dati sintetici prodotti dal modello di generazione video offrono un'alternativa economica alla raccolta di dati nel mondo reale. Questi dati sintetici migliorano efficacemente la generalizzazione del modello E2E oltre i Domini Operativi di Progetto esistenti, facilitando l'espansione dei servizi di veicoli autonomi in nuovi contesti operativi.
English
Recent advances in generative models have sparked exciting new possibilities in the field of autonomous vehicles. Specifically, video generation models are now being explored as controllable virtual testing environments. Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined alternative to conventional modular autonomous driving systems, gaining popularity for their simplicity and scalability. However, the application of these techniques to simulation and planning raises important questions. First, while video generation models can generate increasingly realistic videos, can these videos faithfully adhere to the specified conditions and be realistic enough for E2E autonomous planner evaluation? Second, given that data is crucial for understanding and controlling E2E planners, how can we gain deeper insights into their biases and improve their ability to generalize to out-of-distribution scenarios? In this work, we bridge the gap between the driving models and generative world models (Drive&Gen) to address these questions. We propose novel statistical measures leveraging E2E drivers to evaluate the realism of generated videos. By exploiting the controllability of the video generation model, we conduct targeted experiments to investigate distribution gaps affecting E2E planner performance. Finally, we show that synthetic data produced by the video generation model offers a cost-effective alternative to real-world data collection. This synthetic data effectively improves E2E model generalization beyond existing Operational Design Domains, facilitating the expansion of autonomous vehicle services into new operational contexts.
PDF22October 10, 2025