NVIDIA OmniDreams: Modelo de Mundo Generativo em Tempo Real para Simulação de Veículos Autônomos em Malha Fechada

Resumo

À medida que as capacidades dos veículos autônomos avançam, a avaliação segura de políticas de condução em cenários de cauda longa continua sendo um gargalo crítico. Na simulação em malha fechada, o modelo de política de condução interage ativamente com o ambiente, onde suas ações atualizam dinamicamente o estado do simulador e influenciam diretamente o próximo conjunto de observações sensoriais geradas. Embora simuladores neurais baseados em reconstrução ofereçam fotorrealismo, eles são fundamentalmente limitados pelos dados capturados inicialmente e têm dificuldade em generalizar para cenas altamente dinâmicas ou inéditas. Para superar essas limitações, apresentamos o OmniDreams, um modelo de mundo generativo de base, treinado intermediária e posteriormente a partir do modelo de difusão Cosmos, para gerar de forma autoregressiva vídeos condicionados a ações em tempo real. Ao explorar os ricos priores visuais do Cosmos e o treinamento intermediário e posterior em 21 mil horas de cenários de condução, o OmniDreams sintetiza fenômenos complexos e não observados que são difíceis de capturar por simuladores tradicionais, como condições climáticas extremas e comportamentos imprevisíveis de agentes dinâmicos. Crucialmente, ele condiciona autoregressivamente sua geração sensorial fotorrealista a quadros passados, ao estado atual do simulador e às ações de condução imediatas. Implantado em um sistema de malha fechada com o modelo de política Alpamayo 1 e o orquestrador AlpaSim, o OmniDreams atua como um ambiente altamente responsivo e reativo, fornecendo uma solução escalável e abrangente para treinar e avaliar políticas de condução autônoma de próxima geração. Além disso, apresentamos resultados preliminares indicando que um modelo mundo-ação (WAM) treinado posteriormente a partir do OmniDreams alcança desempenho robusto no conjunto de dados Physical AI Autonomous Vehicles NuRec, superando o modelo de política de pesquisa Alpamayo 1.5 baseado em VLA, utilizando apenas 1/5 do total de parâmetros. Esses resultados destacam o potencial de um modelo de mundo em tempo real como o OmniDreams para também servir como espinha dorsal para arquiteturas de políticas.

English

As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.