NVIDIA OmniDreams : Modèle génératif de monde en temps réel pour la simulation en boucle fermée de véhicules autonomes

Résumé

Alors que les capacités des véhicules autonomes progressent, l'évaluation sécurisée des politiques de conduite dans les scénarios de longue traîne reste un goulot d'étranglement critique. Dans la simulation en boucle fermée, le modèle de politique de conduite interagit activement avec l'environnement, où ses actions mettent à jour dynamiquement l'état du simulateur et influencent directement l'ensemble suivant d'observations de capteurs générées. Bien que les simulateurs neuronaux récents basés sur la reconstruction offrent un photoréalisme, ils sont fondamentalement limités par leurs données initiales capturées et peinent à généraliser à des scènes hautement dynamiques ou inédites. Pour surmonter ces limitations, nous introduisons OmniDreams, un modèle de monde génératif fondation pré-entraîné et post-entraîné à partir du modèle de diffusion Cosmos, afin de générer de manière autorégressive des vidéos conditionnées par les actions en temps réel. En exploitant les riches a priori visuels de Cosmos et un pré- et post-entraînement sur 21 000 heures de scénarios de conduite, OmniDreams synthétise des phénomènes complexes et non observés que les simulateurs traditionnels peinent à capturer, tels que les conditions météorologiques extrêmes et les comportements imprévisibles d'agents dynamiques. Crucialement, il conditionne de manière autorégressive sa génération photoréaliste de capteurs sur les images passées, l'état actuel du simulateur et les actions de conduite immédiates. Déployé dans un système en boucle fermée avec le modèle de politique Alpamayo 1 et l'orchestrateur AlpaSim, OmniDreams agit comme un environnement hautement réactif et réactif, offrant une solution évolutive et complète pour l'entraînement et l'évaluation des politiques de conduite autonome de nouvelle génération. Nous présentons également des résultats préliminaires indiquant qu'un modèle monde-action (WAM) post-entraîné à partir d'OmniDreams atteint des performances solides sur l'ensemble de données NuRec pour l'IA physique des véhicules autonomes, surpassant le modèle de politique de recherche Alpamayo 1.5 basé sur VLA tout en n'utilisant qu'1/5 des paramètres totaux. Ces résultats soulignent le potentiel d'un modèle de monde en temps réel comme OmniDreams à servir également de colonne vertébrale pour les architectures de politique.

English

As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.