DrivingGen: Ein umfassender Benchmark für generative Video-Weltmodelle im autonomen Fahren
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
January 4, 2026
papers.authors: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI
papers.abstract
Videogenerationsmodelle als eine Form von Weltmodellen haben sich zu einer der spannendsten Grenzen der KI entwickelt, indem sie Agenten die Fähigkeit verleihen, die Zukunft zu imaginieren, indem sie die zeitliche Entwicklung komplexer Szenen modellieren. Im autonomen Fahren führt diese Vision zu Fahr-Weltmodellen: generative Simulatoren, die Ego- und Agenten-Zukünfte imaginieren und damit skalierbare Simulation, sichere Tests von Grenzfällen und umfangreiche synthetische Datengenerierung ermöglichen. Trotz schnell wachsender Forschungsaktivitäten fehlt dem Feld jedoch ein rigoroser Benchmark, um Fortschritte zu messen und Prioritäten zu setzen. Bestehende Evaluationen bleiben begrenzt: generische Videometriken übersehen sicherheitskritische Bildfaktoren; Trajektorienplausibilität wird selten quantifiziert; zeitliche und agentenbezogene Konsistenz wird vernachlässigt; und Kontrollierbarkeit bezüglich Ego-Konditionierung bleibt unberücksichtigt. Zudem decken aktuelle Datensätze nicht die für den Realbetrieb erforderliche Vielfalt an Bedingungen ab. Um diese Lücken zu schließen, präsentieren wir DrivingGen, den ersten umfassenden Benchmark für generative Fahr-Weltmodelle. DrivingGen kombiniert einen diversen Evaluationsdatensatz – kuratiert aus Fahrzeugdatensätzen und internetweiten Videoquellen, der verschiedene Wetterbedingungen, Tageszeiten, geografische Regionen und komplexe Manöver abdeckt – mit einer Reihe neuer Metriken, die gemeinsam visuelle Realitätstreue, Trajektorienplausibilität, zeitliche Kohärenz und Kontrollierbarkeit bewerten. Das Benchmarking von 14 State-of-the-Art-Modellen zeigt klare Zielkonflikte: Allgemeine Modelle sehen besser aus, verletzen jedoch physikalische Gesetze, während fahrspezifische Modelle Bewegungen realistisch erfassen, aber in der visuellen Qualität zurückfallen. DrivingGen bietet einen einheitlichen Evaluationsrahmen, um zuverlässige, kontrollierbare und einsatzfähige Fahr-Weltmodelle zu fördern, die skalierbare Simulation, Planung und datengestützte Entscheidungsfindung ermöglichen.
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.