NVIDIA OmniDreams: Modelo Generativo de Mundo en Tiempo Real para Simulación de Vehículos Autónomos en Bucle Cerrado
NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation
June 2, 2026
Autores: NVIDIA, Aarti Basant, Amlan Kar, Despoina Paschalidou, Fangyin Wei, Francesco Ferroni, Guillermo Garcia Cobo, Haithem Turki, Huan Ling, Jaewoo Seo, James Lucas, Jay Zhangjie Wu, Jialiang Wang, Jonathan Lorraine, Jun Gao, Kai He, Katarina Tothova, Kevin Xie, Michał Tyszkiewicz, Qi Wu, Riccardo de Lutio, Ruilong Li, Sanja Fidler, Seung Wook Kim, Tianchang Shen, Tianshi Cao, Tobias Pfaff, William Lew, Xindi Wu, Xuanchi Ren, Yifan Lu, Yuxuan Zhang, Zan Gojcic, Zian Wang
cs.AI
Resumen
A medida que avanzan las capacidades de los vehículos autónomos, la evaluación segura de las políticas de conducción en escenarios de cola larga sigue siendo un cuello de botella crítico. En la simulación en lazo cerrado, el modelo de política de conducción interactúa activamente con el entorno, donde sus acciones actualizan dinámicamente el estado del simulador e influyen directamente en el siguiente conjunto de observaciones de sensores generadas. Si bien los simuladores neuronales basados en reconstrucción ofrecen fotorrealismo, están fundamentalmente limitados por sus datos de captura inicial y tienen dificultades para generalizar a escenas altamente dinámicas o novedosas. Para superar estas limitaciones, presentamos OmniDreams, un modelo mundial generativo fundacional entrenado de forma intermedia y posterior a partir del modelo de difusión Cosmos para generar de forma autorregresiva videos condicionados por acciones en tiempo real. Al aprovechar los ricos priors visuales de Cosmos y el entrenamiento intermedio y posterior en 21 mil horas de escenarios de conducción, OmniDreams sintetiza fenómenos complejos no observados que son difíciles de capturar para los simuladores tradicionales, como condiciones climáticas extremas y comportamientos impredecibles de agentes dinámicos. De manera crucial, condiciona de forma autorregresiva su generación de sensores fotorrealistas en fotogramas pasados, el estado actual del simulador y las acciones de conducción inmediatas. Implementado en un sistema de lazo cerrado con el modelo de política Alpamayo 1 y el orquestador AlpaSim, OmniDreams actúa como un entorno altamente receptivo y reactivo, proporcionando una solución escalable e integral para entrenar y evaluar políticas de conducción autónoma de próxima generación. Además, mostramos resultados preliminares que indican que un modelo mundo-acción (WAM) entrenado posteriormente a partir de OmniDreams logra un rendimiento sólido en el conjunto de datos NuRec de Vehículos Autónomos de IA Física, superando al modelo de política de investigación Alpamayo 1.5 basado en VLA mientras utiliza solo 1/5 de los parámetros totales. Estos resultados resaltan el potencial de un modelo mundial en tiempo real como OmniDreams para servir también como columna vertebral para arquitecturas de políticas.
English
As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.