DrivingGen: Un Punto de Referencia Integral para Modelos de Mundo de Video Generativo en Conducción Autónoma
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
January 4, 2026
Autores: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI
Resumen
Los modelos de generación de vídeo, como una forma de modelos del mundo, han surgido como una de las fronteras más emocionantes de la IA, prometiendo a los agentes la capacidad de imaginar el futuro modelando la evolución temporal de escenas complejas. En la conducción autónoma, esta visión da lugar a los modelos del mundo de conducción: simuladores generativos que imaginan futuros del vehículo ego y de otros agentes, permitiendo simulación escalable, pruebas seguras de casos límite y generación de datos sintéticos ricos. Sin embargo, a pesar de la rápida expansión de la actividad investigadora, el campo carece de un benchmark riguroso para medir el progreso y guiar las prioridades. Las evaluaciones existentes siguen siendo limitadas: las métricas genéricas de vídeo pasan por alto factores de imagen críticos para la seguridad; la plausibilidad de trayectorias rara vez se cuantifica; se descuida la coherencia temporal y a nivel de agente; y se ignora la controllabilidad respecto al condicionamiento del vehículo ego. Además, los conjuntos de datos actuales no logran cubrir la diversidad de condiciones requeridas para el despliegue en el mundo real. Para abordar estas lagunas, presentamos DrivingGen, el primer benchmark integral para modelos generativos del mundo de conducción. DrivingGen combina un conjunto de datos de evaluación diverso, seleccionado tanto de conjuntos de datos de conducción como de fuentes de vídeo a escala de internet, que abarca condiciones meteorológicas variadas, momentos del día, regiones geográficas y maniobras complejas, con un conjunto de nuevas métricas que evalúan conjuntamente el realismo visual, la plausibilidad de trayectorias, la coherencia temporal y la controllabilidad. La evaluación comparativa de 14 modelos de última generación revela compensaciones claras: los modelos generales tienen mejor apariencia pero violan la física, mientras que los específicos de conducción capturan el movimiento de manera realista pero van a la zaga en calidad visual. DrivingGen ofrece un marco de evaluación unificado para fomentar modelos del mundo de conducción fiables, controlables y desplegables, permitiendo simulación escalable, planificación y toma de decisiones basada en datos.
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.