Vers des modèles de monde vidéo de conduite physiquement cohérents sous des trajectoires difficiles

Résumé

Les modèles de génération vidéo ont démontré un fort potentiel en tant que modèles du monde pour la simulation de conduite autonome. Cependant, les approches existantes sont principalement entraînées sur des ensembles de données de conduite réelle, qui contiennent majoritairement des scénarios de conduite naturels et sécuritaires. Par conséquent, les modèles actuels échouent souvent lorsqu'ils sont conditionnés par des trajectoires difficiles ou contrefactuelles - telles que des trajectoires imparfaites générées par des simulateurs ou systèmes de planification - produisant des vidéos présentant de graves incohérences physiques et artefacts. Pour résoudre cette limitation, nous proposons PhyGenesis, un modèle du monde conçu pour générer des vidéos de conduite avec une haute fidélité visuelle et une forte cohérence physique. Notre cadre comprend deux composants clés : (1) un générateur de conditions physiques qui transforme des entrées de trajectoires potentiellement invalides en conditions physiquement plausibles, et (2) un générateur vidéo enrichi en physique qui produit des vidéos de conduite multi-vues de haute fidélité sous ces conditions. Pour entraîner efficacement ces composants, nous construisons un vaste ensemble de données hétérogène riche en physique. Spécifiquement, en plus des vidéos de conduite réelle, nous générons divers scénarios de conduite difficiles à l'aide du simulateur CARLA, à partir desquels nous dérivons des signaux de supervision qui guident le modèle pour apprendre une dynamique physiquement fondée dans des conditions extrêmes. Cette stratégie d'apprentissage par trajectoires difficiles permet une correction de trajectoire et favorise une génération vidéo physiquement cohérente. Des expériences approfondies démontrent que PhyGenesis surpasse constamment les méthodes state-of-the-art, particulièrement sur les trajectoires difficiles. Notre page projet est disponible à l'adresse : https://wm-research.github.io/PhyGenesis/.

English

Video generation models have shown strong potential as world models for autonomous driving simulation. However, existing approaches are primarily trained on real-world driving datasets, which mostly contain natural and safe driving scenarios. As a result, current models often fail when conditioned on challenging or counterfactual trajectories-such as imperfect trajectories generated by simulators or planning systems-producing videos with severe physical inconsistencies and artifacts. To address this limitation, we propose PhyGenesis, a world model designed to generate driving videos with high visual fidelity and strong physical consistency. Our framework consists of two key components: (1) a physical condition generator that transforms potentially invalid trajectory inputs into physically plausible conditions, and (2) a physics-enhanced video generator that produces high-fidelity multi-view driving videos under these conditions. To effectively train these components, we construct a large-scale, physics-rich heterogeneous dataset. Specifically, in addition to real-world driving videos, we generate diverse challenging driving scenarios using the CARLA simulator, from which we derive supervision signals that guide the model to learn physically grounded dynamics under extreme conditions. This challenging-trajectory learning strategy enables trajectory correction and promotes physically consistent video generation. Extensive experiments demonstrate that PhyGenesis consistently outperforms state-of-the-art methods, especially on challenging trajectories. Our project page is available at: https://wm-research.github.io/PhyGenesis/.

Vers des modèles de monde vidéo de conduite physiquement cohérents sous des trajectoires difficiles

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Résumé

Support