ChatPaper.aiChatPaper

DrivingGen: Комплексный эталонный тест для генеративных видео-моделей мира в области автономного вождения

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

January 4, 2026
Авторы: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI

Аннотация

Модели генерации видео, как одна из форм моделей мира, стали одним из самых захватывающих направлений в области ИИ, обещая агентам способность предвосхищать будущее путем моделирования временной эволюции сложных сцен. В автономном вождении это видение порождает модели мира для вождения: генеративные симуляторы, которые предсказывают будущее эго-агента и других участников, обеспечивая масштабируемое моделирование, безопасное тестирование крайних случаев и генерацию богатых синтетических данных. Однако, несмотря на быстро растущую исследовательскую активность, в данной области отсутствует строгий эталон для измерения прогресса и определения приоритетов. Существующие методы оценки остаются ограниченными: общие метрики видео игнорируют критически важные для безопасности факторы визуализации; правдоподобие траекторий редко количественно оценивается; временная и агентская согласованность не учитывается; а управляемость относительно условий для эго-агента игнорируется. Более того, текущие наборы данных не охватывают всего разнообразия условий, необходимых для реального развертывания. Для устранения этих пробелов мы представляем DrivingGen — первый комплексный эталон для генеративных моделей мира вождения. DrivingGen сочетает в себе разнообразный оценочный набор данных, составленный как из датасетов по вождению, так и из интернет-видео, охватывающий различные погодные условия, время суток, географические регионы и сложные маневры, с набором новых метрик, которые совместно оценивают визуальный реализм, правдоподобие траекторий, временную согласованность и управляемость. Тестирование 14 современных моделей выявляет явные компромиссы: универсальные модели выглядят лучше, но нарушают законы физики, в то время как специализированные модели для вождения реалистично передают движение, но отстают по визуальному качеству. DrivingGen предлагает унифицированную систему оценки для развития надежных, управляемых и пригодных к развертыванию моделей мира вождения, обеспечивая масштабируемое моделирование, планирование и принятие решений на основе данных.
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.
PDF193February 7, 2026