NVIDIA OmniDreams: Echtzeit-generatives Weltmodell für die Closed-Loop-Simulation autonomer Fahrzeuge

Zusammenfassung

Mit dem Fortschritt der Fähigkeiten autonomer Fahrzeuge bleibt die sichere Bewertung von Fahrstrategien in Long-Tail-Szenarien ein kritischer Engpass. In der Closed-Loop-Simulation interagiert das Fahrstrategiemodell aktiv mit der Umgebung, wobei seine Aktionen den Simulatorzustand dynamisch aktualisieren und die nächste Menge generierter Sensorbeobachtungen direkt beeinflussen. Während neuere auf Rekonstruktion basierende neuronale Simulatoren Fotorealismus bieten, sind sie grundlegend durch ihre anfänglich erfassten Daten eingeschränkt und haben Schwierigkeiten, auf stark dynamische oder neuartige Szenen zu generalisieren. Um diese Einschränkungen zu überwinden, stellen wir OmniDreams vor, ein fundamentales generatives Weltmodell, das aus dem Cosmos-Diffusionsmodell mittel- und nachtrainiert wurde, um autoregressiv aktionskonditionierte Videos in Echtzeit zu generieren. Durch die Nutzung der reichhaltigen visuellen Priors von Cosmos und des Mittel- und Nachtrainings auf 21.000 Stunden Fahrszenarien synthetisiert OmniDreams komplexe, unbeobachtete Phänomene, die für traditionelle Simulatoren schwer zu erfassen sind, wie extremes Wetter und unvorhersehbare dynamische Agentenverhalten. Entscheidend ist, dass es seine fotorealistische Sensorgenerierung autoregressiv auf vergangene Frames, den aktuellen Simulatorzustand und unmittelbare Fahraktionsbedingungen konditioniert. Eingesetzt in einem Closed-Loop-System mit dem Alpamayo 1 Policy-Modell und dem AlpaSim-Orchestrator fungiert OmniDreams als hochgradig reaktionsfähige, reaktive Umgebung und bietet eine skalierbare und umfassende Lösung zum Trainieren und Evaluieren von Fahrstrategien der nächsten Generation für autonome Fahrzeuge. Wir zeigen zudem vorläufige Ergebnisse, die darauf hindeuten, dass ein aus OmniDreams nachtrainiertes Welt-Aktions-Modell (WAM) auf dem Physical AI Autonomous Vehicles NuRec-Datensatz eine starke Leistung erzielt und das VLA-basierte Forschungs-Policy-Modell Alpamayo 1.5 übertrifft, während es nur 1/5 der Gesamtparameter verwendet. Diese Ergebnisse unterstreichen das Potenzial eines Echtzeit-Weltmodells wie OmniDreams, auch als Rückgrat für Policy-Architekturen zu dienen.

English

As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.