Drive&Gen: Co-Evaluación de Modelos de Conducción de Extremo a Extremo y Generación de Vídeo
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
Autores: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
Resumen
Los recientes avances en modelos generativos han abierto nuevas posibilidades emocionantes en el campo de los vehículos autónomos. En particular, los modelos de generación de videos están siendo explorados como entornos virtuales de prueba controlables. Simultáneamente, los modelos de conducción de extremo a extremo (E2E) han surgido como una alternativa simplificada a los sistemas modulares convencionales de conducción autónoma, ganando popularidad por su simplicidad y escalabilidad. Sin embargo, la aplicación de estas técnicas a la simulación y planificación plantea preguntas importantes. En primer lugar, aunque los modelos de generación de videos pueden producir videos cada vez más realistas, ¿pueden estos videos adherirse fielmente a las condiciones especificadas y ser lo suficientemente realistas para la evaluación de planificadores E2E autónomos? En segundo lugar, dado que los datos son cruciales para comprender y controlar los planificadores E2E, ¿cómo podemos obtener una comprensión más profunda de sus sesgos y mejorar su capacidad para generalizar a escenarios fuera de distribución? En este trabajo, cerramos la brecha entre los modelos de conducción y los modelos generativos del mundo (Drive&Gen) para abordar estas preguntas. Proponemos nuevas medidas estadísticas que aprovechan los conductores E2E para evaluar el realismo de los videos generados. Al explotar la controlabilidad del modelo de generación de videos, realizamos experimentos específicos para investigar las brechas de distribución que afectan el rendimiento de los planificadores E2E. Finalmente, demostramos que los datos sintéticos producidos por el modelo de generación de videos ofrecen una alternativa rentable a la recopilación de datos del mundo real. Estos datos sintéticos mejoran efectivamente la generalización del modelo E2E más allá de los Dominios de Diseño Operativo existentes, facilitando la expansión de los servicios de vehículos autónomos a nuevos contextos operativos.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.