Drive&Gen: Co-Evaluación de Modelos de Conducción de Extremo a Extremo y Generación de Vídeo

Resumen

Los recientes avances en modelos generativos han abierto nuevas posibilidades emocionantes en el campo de los vehículos autónomos. En particular, los modelos de generación de videos están siendo explorados como entornos virtuales de prueba controlables. Simultáneamente, los modelos de conducción de extremo a extremo (E2E) han surgido como una alternativa simplificada a los sistemas modulares convencionales de conducción autónoma, ganando popularidad por su simplicidad y escalabilidad. Sin embargo, la aplicación de estas técnicas a la simulación y planificación plantea preguntas importantes. En primer lugar, aunque los modelos de generación de videos pueden producir videos cada vez más realistas, ¿pueden estos videos adherirse fielmente a las condiciones especificadas y ser lo suficientemente realistas para la evaluación de planificadores E2E autónomos? En segundo lugar, dado que los datos son cruciales para comprender y controlar los planificadores E2E, ¿cómo podemos obtener una comprensión más profunda de sus sesgos y mejorar su capacidad para generalizar a escenarios fuera de distribución? En este trabajo, cerramos la brecha entre los modelos de conducción y los modelos generativos del mundo (Drive&Gen) para abordar estas preguntas. Proponemos nuevas medidas estadísticas que aprovechan los conductores E2E para evaluar el realismo de los videos generados. Al explotar la controlabilidad del modelo de generación de videos, realizamos experimentos específicos para investigar las brechas de distribución que afectan el rendimiento de los planificadores E2E. Finalmente, demostramos que los datos sintéticos producidos por el modelo de generación de videos ofrecen una alternativa rentable a la recopilación de datos del mundo real. Estos datos sintéticos mejoran efectivamente la generalización del modelo E2E más allá de los Dominios de Diseño Operativo existentes, facilitando la expansión de los servicios de vehículos autónomos a nuevos contextos operativos.

English

Recent advances in generative models have sparked exciting new possibilities in the field of autonomous vehicles. Specifically, video generation models are now being explored as controllable virtual testing environments. Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined alternative to conventional modular autonomous driving systems, gaining popularity for their simplicity and scalability. However, the application of these techniques to simulation and planning raises important questions. First, while video generation models can generate increasingly realistic videos, can these videos faithfully adhere to the specified conditions and be realistic enough for E2E autonomous planner evaluation? Second, given that data is crucial for understanding and controlling E2E planners, how can we gain deeper insights into their biases and improve their ability to generalize to out-of-distribution scenarios? In this work, we bridge the gap between the driving models and generative world models (Drive&Gen) to address these questions. We propose novel statistical measures leveraging E2E drivers to evaluate the realism of generated videos. By exploiting the controllability of the video generation model, we conduct targeted experiments to investigate distribution gaps affecting E2E planner performance. Finally, we show that synthetic data produced by the video generation model offers a cost-effective alternative to real-world data collection. This synthetic data effectively improves E2E model generalization beyond existing Operational Design Domains, facilitating the expansion of autonomous vehicle services into new operational contexts.

Drive&Gen: Co-Evaluación de Modelos de Conducción de Extremo a Extremo y Generación de Vídeo

Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models

Resumen

Support