Hacia Modelos de Mundo de Video de Conducción Físicamente Consistentes bajo Trayectorias Desafiantes

Resumen

Los modelos de generación de vídeo han demostrado un gran potencial como modelos del mundo para la simulación de conducción autónoma. Sin embargo, los enfoques existentes se entrenan principalmente con conjuntos de datos de conducción del mundo real, que contienen sobre todo escenarios de conducción naturales y seguros. Como resultado, los modelos actuales a menudo fallan cuando se condicionan con trayectorias desafiantes o contrafactuales —como trayectorias imperfectas generadas por simuladores o sistemas de planificación—, produciendo vídeos con graves inconsistencias físicas y artefactos. Para abordar esta limitación, proponemos PhyGenesis, un modelo del mundo diseñado para generar vídeos de conducción con alta fidelidad visual y fuerte consistencia física. Nuestro marco consta de dos componentes clave: (1) un generador de condiciones físicas que transforma entradas de trayectoria potencialmente inválidas en condiciones físicamente plausibles, y (2) un generador de vídeo mejorado con física que produce vídeos de conducción multi-vista de alta fidelidad bajo estas condiciones. Para entrenar estos componentes de manera efectiva, construimos un conjunto de datos heterogéneo a gran escala y rico en física. Específicamente, además de vídeos de conducción del mundo real, generamos diversos escenarios de conducción desafiantes utilizando el simulador CARLA, de los cuales derivamos señales de supervisión que guían al modelo para aprender dinámicas físicamente fundamentadas en condiciones extremas. Esta estrategia de aprendizaje con trayectorias desafiantes permite la corrección de trayectorias y promueve la generación de vídeos físicamente consistentes. Experimentos exhaustivos demuestran que PhyGenesis supera consistentemente a los métodos de vanguardia, especialmente en trayectorias desafiantes. Nuestra página del proyecto está disponible en: https://wm-research.github.io/PhyGenesis/.

English

Video generation models have shown strong potential as world models for autonomous driving simulation. However, existing approaches are primarily trained on real-world driving datasets, which mostly contain natural and safe driving scenarios. As a result, current models often fail when conditioned on challenging or counterfactual trajectories-such as imperfect trajectories generated by simulators or planning systems-producing videos with severe physical inconsistencies and artifacts. To address this limitation, we propose PhyGenesis, a world model designed to generate driving videos with high visual fidelity and strong physical consistency. Our framework consists of two key components: (1) a physical condition generator that transforms potentially invalid trajectory inputs into physically plausible conditions, and (2) a physics-enhanced video generator that produces high-fidelity multi-view driving videos under these conditions. To effectively train these components, we construct a large-scale, physics-rich heterogeneous dataset. Specifically, in addition to real-world driving videos, we generate diverse challenging driving scenarios using the CARLA simulator, from which we derive supervision signals that guide the model to learn physically grounded dynamics under extreme conditions. This challenging-trajectory learning strategy enables trajectory correction and promotes physically consistent video generation. Extensive experiments demonstrate that PhyGenesis consistently outperforms state-of-the-art methods, especially on challenging trajectories. Our project page is available at: https://wm-research.github.io/PhyGenesis/.

Hacia Modelos de Mundo de Video de Conducción Físicamente Consistentes bajo Trayectorias Desafiantes

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Resumen

Support