NVIDIA OmniDreams: Real-Time Generatief Wereldmodel voor Gesloten-Lus Simulatie van Autonome Voertuigen

Samenvatting

Naarmate de mogelijkheden van autonome voertuigen toenemen, blijft de veilige evaluatie van rijbeleid in long-tail scenario's een kritieke bottleneck. In closed-loop simulatie interageert het rijbeleidsmodel actief met de omgeving, waarbij zijn acties de simulatortoestand dynamisch bijwerken en direct de volgende reeks gegenereerde sensorwaarnemingen beïnvloeden. Hoewel recente reconstructiegebaseerde neurale simulatoren fotorealisme bieden, worden ze fundamenteel beperkt door hun oorspronkelijk vastgelegde gegevens en kunnen ze moeilijk generaliseren naar zeer dynamische of nieuwe scènes. Om deze beperkingen te overwinnen, introduceren we OmniDreams, een fundamenteel generatief wereldmodel dat midden- en nabehandeling heeft ondergaan vanuit het Cosmos-diffusiemodel om autoregressief in realtime actie-geconditioneerde video's te genereren. Door gebruik te maken van de rijke visuele prior-kennis van Cosmos en midden- en na-training op 21.000 uur aan rijdscenario's, synthetiseert OmniDreams complexe, niet-waargenomen fenomenen die moeilijk te vatten zijn voor traditionele simulatoren, zoals extreem weer en onvoorspelbare dynamische agentgedragingen. Cruciaal is dat het zijn fotorealistische sensor-generatie autoregressief conditioneert op eerdere frames, de huidige simulatortoestand en onmiddellijke rijacties. Ingezet in een closed-loop systeem met het Alpamayo 1-beleidsmodel en de AlpaSim-orchestrator, fungeert OmniDreams als een zeer responsieve, reactieve omgeving, die een schaalbare en uitgebreide oplossing biedt voor het trainen en evalueren van volgende generaties autonoom rijbeleid. We tonen daarnaast voorlopige resultaten die aangeven dat een wereld-actiemodel (WAM) dat nabehandeling heeft ondergaan vanuit OmniDreams, sterke prestaties levert op de Physical AI Autonomous Vehicles NuRec-dataset, waarbij het het VLA-gebaseerde Alpamayo 1.5-onderzoeksbeleidsmodel overtreft met slechts 1/5 van het totale aantal parameters. Deze resultaten benadrukken het potentieel van een realtime wereldmodel zoals OmniDreams om ook als ruggengraat voor beleidsarchitecturen te dienen.

English

As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.