NVIDIA OmniDreams: генеративная модель мира в реальном времени для симуляции автономных транспортных средств в замкнутом контуре

Аннотация

По мере развития возможностей автономных транспортных средств безопасная оценка стратегий вождения в сценариях с длинным хвостом остаётся критическим узким местом. При замкнутом цикле моделирования модель стратегии вождения активно взаимодействует с окружающей средой, при этом её действия динамически обновляют состояние симулятора и непосредственно влияют на следующий набор генерируемых сенсорных наблюдений. Хотя современные реконструкционные нейросетевые симуляторы обеспечивают фотореалистичность, они принципиально ограничены исходными записанными данными и с трудом обобщаются на высокодинамичные или новые сцены. Для преодоления этих ограничений мы представляем OmniDreams — фундаментальную генеративную мировую модель, промежуточно и финально обученную на основе диффузионной модели Cosmos для авторегрессионной генерации видео, обусловленных действиями, в реальном времени. Используя богатые визуальные априорные знания Cosmos и промежуточное и финальное обучение на 21 тысяче часов сценариев вождения, OmniDreams синтезирует сложные, ненаблюдаемые явления, которые трудно воспроизвести традиционным симуляторам, такие как экстремальные погодные условия и непредсказуемое поведение динамических агентов. Ключевой особенностью является то, что он авторегрессионно обуславливает генерацию фотореалистичных сенсорных данных на основе прошлых кадров, текущего состояния симулятора и непосредственных действий вождения. Развёрнутый в системе с замкнутым циклом совместно с моделью стратегии Alpamayo 1 и оркестратором AlpaSim, OmniDreams выступает в качестве высокочувствительной, реактивной среды, обеспечивая масштабируемое и комплексное решение для обучения и оценки стратегий автономного вождения следующего поколения. Дополнительно мы приводим предварительные результаты, указывающие на то, что модель «мир-действие» (WAM), дополнительно обученная на основе OmniDreams, достигает высоких показателей на наборе данных Physical AI Autonomous Vehicles NuRec, превосходя исследовательскую модель стратегии Alpamayo 1.5 на основе VLA, используя при этом лишь 1/5 общего числа параметров. Эти результаты подчёркивают потенциал такой модели реального времени, как OmniDreams, также служить основой для архитектур стратегий.

English

As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. In closed-loop simulation, the driving policy model actively interacts with the environment, where its actions dynamically update the simulator state and directly influence the next set of generated sensor observations. While recent reconstruction-based neural simulators offer photorealism, they are fundamentally constrained by their initial captured data and struggle to generalize to highly dynamic or novel scenes. To overcome these limitations, we introduce OmniDreams, a foundation generative world model mid- and post-trained from the Cosmos diffusion model to autoregressively generate action-conditioned videos in real time. By leveraging the rich visual priors of Cosmos and mid- and post-training on 21k hours of driving scenarios, OmniDreams synthesizes complex, unobserved phenomena that are hard for traditional simulators to capture, such as extreme weather and unpredictable dynamic agent behaviors. Crucially, it autoregressively conditions its photorealistic sensor generation on past frames, the current simulator state, and immediate driving actions. Deployed in a closed-loop system with the Alpamayo 1 policy model and AlpaSim orchestrator, OmniDreams acts as a highly responsive, reactive environment, providing a scalable and comprehensive solution for training and evaluating next-generation autonomous driving policies. We additionally show preliminary results indicating that a world-action model (WAM) post-trained from OmniDreams achieves strong performance on the Physical AI Autonomous Vehicles NuRec dataset, surpassing the VLA-based Alpamayo 1.5 research policy model while using only 1/5 the total parameters. These results highlight the potential for a real-time world model like OmniDreams to also serve as a backbone for policy architectures.