Drive&Gen: Совместная оценка сквозных моделей вождения и генерации видео
Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
October 7, 2025
Авторы: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
Аннотация
Последние достижения в области генеративных моделей открыли новые захватывающие возможности в сфере автономных транспортных средств. В частности, модели генерации видео сейчас исследуются как управляемые виртуальные среды для тестирования. Одновременно с этим сквозные (end-to-end, E2E) модели управления транспортными средствами появились как упрощённая альтернатива традиционным модульным системам автономного вождения, завоевав популярность благодаря своей простоте и масштабируемости. Однако применение этих методов в симуляции и планировании поднимает важные вопросы. Во-первых, хотя модели генерации видео способны создавать всё более реалистичные видеоролики, могут ли эти видео точно соответствовать заданным условиям и быть достаточно реалистичными для оценки сквозных автономных планировщиков? Во-вторых, учитывая, что данные играют ключевую роль в понимании и управлении сквозными планировщиками, как мы можем глубже понять их предубеждения и улучшить их способность обобщать данные для сценариев, выходящих за пределы распределения? В данной работе мы устраняем разрыв между моделями управления транспортными средствами и генеративными моделями мира (Drive&Gen), чтобы ответить на эти вопросы. Мы предлагаем новые статистические методы, использующие сквозные модели управления для оценки реалистичности сгенерированных видео. Используя управляемость модели генерации видео, мы проводим целевые эксперименты для изучения разрывов в распределении, влияющих на производительность сквозных планировщиков. Наконец, мы показываем, что синтетические данные, созданные моделью генерации видео, представляют собой экономически эффективную альтернативу сбору реальных данных. Эти синтетические данные эффективно улучшают обобщающую способность сквозных моделей за пределы существующих областей проектирования, способствуя расширению услуг автономных транспортных средств в новые операционные контексты.
English
Recent advances in generative models have sparked exciting new possibilities
in the field of autonomous vehicles. Specifically, video generation models are
now being explored as controllable virtual testing environments.
Simultaneously, end-to-end (E2E) driving models have emerged as a streamlined
alternative to conventional modular autonomous driving systems, gaining
popularity for their simplicity and scalability. However, the application of
these techniques to simulation and planning raises important questions. First,
while video generation models can generate increasingly realistic videos, can
these videos faithfully adhere to the specified conditions and be realistic
enough for E2E autonomous planner evaluation? Second, given that data is
crucial for understanding and controlling E2E planners, how can we gain deeper
insights into their biases and improve their ability to generalize to
out-of-distribution scenarios? In this work, we bridge the gap between the
driving models and generative world models (Drive&Gen) to address these
questions. We propose novel statistical measures leveraging E2E drivers to
evaluate the realism of generated videos. By exploiting the controllability of
the video generation model, we conduct targeted experiments to investigate
distribution gaps affecting E2E planner performance. Finally, we show that
synthetic data produced by the video generation model offers a cost-effective
alternative to real-world data collection. This synthetic data effectively
improves E2E model generalization beyond existing Operational Design Domains,
facilitating the expansion of autonomous vehicle services into new operational
contexts.