DrivingGen: 자율 주행을 위한 생성형 비디오 세계 모델 종합 벤치마크
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
January 4, 2026
저자: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI
초록
비디오 생성 모델은 세계 모델(world model)의 한 형태로서, 복잡한 장면의 시간적 변화를 모델링함으로써 에이전트에게 미래를 예측하는 능력을 부여하는 AI 분야에서 가장 주목받는 프론티어로 떠올랐습니다. 자율주행에서는 이러한 비전이 주행 세계 모델(driving world model)로 이어지고 있습니다. 이는 생성형 시뮬레이터로, 자차(ego) 및 주변 에이전트의 미래 궤적을 예측하여 확장 가능한 시뮬레이션, 위험 상황(corner case)의 안전한 테스트, 그리고 풍부한 합성 데이터 생성을 가능하게 합니다. 그러나 연구 활동이 급속도로 증가함에도 불구하고, 이 분야는 진전을 측정하고 우선순위를 안내할 엄격한 벤치마크가 부족한 실정입니다. 기존 평가 방법은 한계가 뚜렷합니다. 일반적인 비디오 평가 지표는 안전에至关重要的한 영상 요소를 간과하고, 궤적의 타당성은 거의 정량화되지 않으며, 시간적 및 에이전트 수준의 일관성은 간과되고, 자차 조건화(ego conditioning)를 통한 제어 가능성은 무시되고 있습니다. 더욱이 현재 데이터셋은 실제 적용에 필요한 다양한 조건을 충분히 포괄하지 못합니다.
이러한 격차를 해결하기 위해 우리는 생성형 주행 세계 모델을 위한 최초의 포괄적인 벤치마크인 DrivingGen을 소개합니다. DrivingGen은 주행 데이터셋과 인터넷 규모의 비디오 소스에서 선별한 다양한 평가 데이터셋(기상, 시간대, 지리적 지역, 복잡한 주행 기동을 아우름)과 시각적 현실성, 궤적 타당성, 시간적 일관성, 제어 가능성을 종합적으로 평가하는 새로운 평가 지표군(suite)을 결합했습니다. 14개의 최첨단 모델을 벤치마킹한 결과 명확한 트레이드오프가 드러났습니다. 일반적인 모델은 영상 품질은 더 나아 보이지만 물리 법칙을 위반하는 반면, 주행 특화 모델은 운동을 현실적으로 포착하지만 시각적 품질에서는 뒤처졌습니다. DrivingGen은 통합된 평가 체계를 제공하여 신뢰할 수 있고 제어 가능하며 실제 배포가 가능한 주행 세계 모델의 발전을 촉진하고, 확장 가능한 시뮬레이션, 경로 계획(planning), 데이터 기반 의사결정을 가능하게 할 것입니다.
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.