DrivingGen: 自律走行における生成的ビデオ世界モデルの包括的ベンチマーク
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
January 4, 2026
著者: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI
要旨
ビデオ生成モデルは、世界モデルの一形態として、複雑なシーンの時間的変化をモデリングすることでエージェントに未来を想像する能力を与える、AIにおいて最も注目すべきフロンティアの一つとして登場した。自動運転において、このビジョンは「運転世界モデル」を生み出している。これは、自車及び他車の未来を想像する生成的シミュレータであり、スケーラブルなシミュレーション、コーナーケースの安全なテスト、豊富な合成データ生成を可能にする。しかし、研究活動が急速に拡大しているにもかかわらず、この分野には進捗を測定し優先順位を導くための厳格なベンチマークが欠如している。既存の評価は限定的である:汎用的なビデオ指標は安全性に重大な影響を与える映像要素を見落としている;軌道の尤もらしさが定量化されることは稀である;時間的およびエージェントレベルの一貫性が軽視されている;自車の条件付けに基づく制御性が無視されている。さらに、現行のデータセットは実世界での展開に必要な多様な条件を網羅できていない。これらのギャップに対処するため、我々は生成的運転世界モデル初の包括的ベンチマークであるDrivingGenを提案する。DrivingGenは、運転データセットとインターネット規模のビデオソースの両方から選定された多様な評価データセット(様々な天候、時間帯、地理的領域、複雑な運転操作を含む)と、視覚的なリアリズム、軌道の尤もらしさ、時間的一貫性、制御性を総合的に評価する一連の新規指標を組み合わせている。14の最先端モデルをベンチマークした結果、明確なトレードオフが明らかになった:汎用モデルは見た目が良いが物理法則を破り、運転特化型モデルは動きを現実的に捉えるが視覚的品質で遅れをとる。DrivingGenは、信頼性が高く、制御可能で、実用可能な運転世界モデルの発展を促進する統一的な評価フレームワークを提供し、スケーラブルなシミュレーション、計画、データ駆動型意思決定を可能にする。
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.