Drive&Gen: Coavaliação de Modelos de Condução End-to-End e Geração de Vídeo
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
Autores: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
Resumo
Os recentes avanços em modelos generativos têm aberto novas possibilidades emocionantes no campo de veículos autônomos. Especificamente, modelos de geração de vídeo estão sendo explorados como ambientes virtuais de teste controláveis. Simultaneamente, modelos de direção de ponta a ponta (E2E) surgiram como uma alternativa simplificada aos sistemas modulares convencionais de direção autônoma, ganhando popularidade por sua simplicidade e escalabilidade. No entanto, a aplicação dessas técnicas à simulação e planejamento levanta questões importantes. Primeiro, embora os modelos de geração de vídeo possam produzir vídeos cada vez mais realistas, esses vídeos podem aderir fielmente às condições especificadas e ser realistas o suficiente para a avaliação de planejadores E2E autônomos? Segundo, dado que os dados são cruciais para entender e controlar planejadores E2E, como podemos obter insights mais profundos sobre seus vieses e melhorar sua capacidade de generalização para cenários fora da distribuição? Neste trabalho, preenchemos a lacuna entre os modelos de direção e os modelos generativos de mundo (Drive&Gen) para abordar essas questões. Propomos novas medidas estatísticas que aproveitam os motoristas E2E para avaliar o realismo dos vídeos gerados. Ao explorar a controlabilidade do modelo de geração de vídeo, conduzimos experimentos direcionados para investigar lacunas de distribuição que afetam o desempenho do planejador E2E. Por fim, mostramos que os dados sintéticos produzidos pelo modelo de geração de vídeo oferecem uma alternativa econômica à coleta de dados do mundo real. Esses dados sintéticos melhoram efetivamente a generalização do modelo E2E além dos Domínios de Design Operacional existentes, facilitando a expansão dos serviços de veículos autônomos para novos contextos operacionais.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.