DrivingGen: Um Benchmark Abrangente para Modelos de Mundo de Vídeo Generativo em Condução Autónoma
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
January 4, 2026
Autores: Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
cs.AI
Resumo
Os modelos de geração de vídeo, enquanto uma forma de modelos de mundo, emergiram como uma das fronteiras mais empolgantes da IA, prometendo aos agentes a capacidade de imaginar o futuro através da modelagem da evolução temporal de cenas complexas. Na condução autónoma, esta visão dá origem aos modelos de mundo de condução: simuladores generativos que imaginam futuros do ego e de outros agentes, permitindo simulação escalável, teste seguro de casos extremos e geração rica de dados sintéticos. No entanto, apesar da rápida expansão da atividade de investigação, a área carece de um benchmark rigoroso para medir o progresso e guiar prioridades. As avaliações existentes permanecem limitadas: as métricas genéricas de vídeo ignoram fatores de imagem críticos para a segurança; a plausibilidade da trajetória raramente é quantificada; a coerência temporal e a nível de agente é negligenciada; e a controlabilidade em relação ao condicionamento do ego é ignorada. Além disso, os conjuntos de dados atuais não cobrem a diversidade de condições necessárias para a implantação no mundo real. Para colmatar estas lacunas, apresentamos o DrivingGen, o primeiro benchmark abrangente para modelos generativos de mundo de condução. O DrivingGen combina um conjunto de dados de avaliação diversificado, curado a partir de conjuntos de dados de condução e de fontes de vídeo em escala da Internet, abrangendo diversas condições meteorológicas, horários do dia, regiões geográficas e manobras complexas, com um conjunto de novas métricas que avaliam conjuntamente o realismo visual, a plausibilidade da trajetória, a coerência temporal e a controlabilidade. A avaliação de 14 modelos state-of-the-art revela trade-offs claros: os modelos gerais têm melhor aspeto visual mas violam a física, enquanto os específicos para condução capturam o movimento de forma realista mas ficam aquém na qualidade visual. O DrivingGen oferece um quadro de avaliação unificado para fomentar modelos de mundo de condução fiáveis, controláveis e implantáveis, permitindo simulação escalável, planeamento e tomada de decisão baseada em dados.
English
Video generation models, as one form of world models, have emerged as one of the most exciting frontiers in AI, promising agents the ability to imagine the future by modeling the temporal evolution of complex scenes. In autonomous driving, this vision gives rise to driving world models: generative simulators that imagine ego and agent futures, enabling scalable simulation, safe testing of corner cases, and rich synthetic data generation. Yet, despite fast-growing research activity, the field lacks a rigorous benchmark to measure progress and guide priorities. Existing evaluations remain limited: generic video metrics overlook safety-critical imaging factors; trajectory plausibility is rarely quantified; temporal and agent-level consistency is neglected; and controllability with respect to ego conditioning is ignored. Moreover, current datasets fail to cover the diversity of conditions required for real-world deployment. To address these gaps, we present DrivingGen, the first comprehensive benchmark for generative driving world models. DrivingGen combines a diverse evaluation dataset curated from both driving datasets and internet-scale video sources, spanning varied weather, time of day, geographic regions, and complex maneuvers, with a suite of new metrics that jointly assess visual realism, trajectory plausibility, temporal coherence, and controllability. Benchmarking 14 state-of-the-art models reveals clear trade-offs: general models look better but break physics, while driving-specific ones capture motion realistically but lag in visual quality. DrivingGen offers a unified evaluation framework to foster reliable, controllable, and deployable driving world models, enabling scalable simulation, planning, and data-driven decision-making.