OmniNWM : Modèles mondiaux de navigation omnipotente pour la conduite
OmniNWM: Omniscient Driving Navigation World Models
October 21, 2025
papers.authors: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin
cs.AI
papers.abstract
Les modèles du monde pour la conduite autonome sont censés fonctionner efficacement à travers trois dimensions fondamentales : l'état, l'action et la récompense. Cependant, les modèles existants sont généralement limités à des modalités d'état restreintes, des séquences vidéo courtes, un contrôle d'action imprécis et un manque de conscience de la récompense. Dans cet article, nous présentons OmniNWM, un modèle du monde de navigation panoramique omniscient qui aborde ces trois dimensions dans un cadre unifié. Pour l'état, OmniNWM génère conjointement des vidéos panoramiques en RGB, sémantique, profondeur métrique et occupation 3D. Une stratégie de forçage flexible permet une génération auto-régressive de haute qualité sur de longues séquences. Pour l'action, nous introduisons une représentation normalisée de carte de rayons Plücker panoramique qui encode les trajectoires d'entrée en signaux au niveau des pixels, permettant un contrôle très précis et généralisable de la génération de vidéos panoramiques. Concernant la récompense, nous allons au-delà de l'apprentissage de fonctions de récompense avec des modèles externes basés sur l'image : nous exploitons plutôt l'occupation 3D générée pour définir directement des récompenses denses basées sur des règles pour la conformité et la sécurité de la conduite. Des expériences approfondies démontrent qu'OmniNWM atteint des performances de pointe en génération vidéo, précision de contrôle et stabilité sur de longues séquences, tout en fournissant un cadre d'évaluation en boucle fermée fiable grâce à des récompenses ancrées dans l'occupation. La page du projet est disponible à l'adresse https://github.com/Arlo0o/OmniNWM.
English
Autonomous driving world models are expected to work effectively across three
core dimensions: state, action, and reward. Existing models, however, are
typically restricted to limited state modalities, short video sequences,
imprecise action control, and a lack of reward awareness. In this paper, we
introduce OmniNWM, an omniscient panoramic navigation world model that
addresses all three dimensions within a unified framework. For state, OmniNWM
jointly generates panoramic videos of RGB, semantics, metric depth, and 3D
occupancy. A flexible forcing strategy enables high-quality long-horizon
auto-regressive generation. For action, we introduce a normalized panoramic
Plucker ray-map representation that encodes input trajectories into pixel-level
signals, enabling highly precise and generalizable control over panoramic video
generation. Regarding reward, we move beyond learning reward functions with
external image-based models: instead, we leverage the generated 3D occupancy to
directly define rule-based dense rewards for driving compliance and safety.
Extensive experiments demonstrate that OmniNWM achieves state-of-the-art
performance in video generation, control accuracy, and long-horizon stability,
while providing a reliable closed-loop evaluation framework through
occupancy-grounded rewards. Project page is available at
https://github.com/Arlo0o/OmniNWM.