OmniNWM : Modèles mondiaux de navigation omnipotente pour la conduite

papers.abstract

Les modèles du monde pour la conduite autonome sont censés fonctionner efficacement à travers trois dimensions fondamentales : l'état, l'action et la récompense. Cependant, les modèles existants sont généralement limités à des modalités d'état restreintes, des séquences vidéo courtes, un contrôle d'action imprécis et un manque de conscience de la récompense. Dans cet article, nous présentons OmniNWM, un modèle du monde de navigation panoramique omniscient qui aborde ces trois dimensions dans un cadre unifié. Pour l'état, OmniNWM génère conjointement des vidéos panoramiques en RGB, sémantique, profondeur métrique et occupation 3D. Une stratégie de forçage flexible permet une génération auto-régressive de haute qualité sur de longues séquences. Pour l'action, nous introduisons une représentation normalisée de carte de rayons Plücker panoramique qui encode les trajectoires d'entrée en signaux au niveau des pixels, permettant un contrôle très précis et généralisable de la génération de vidéos panoramiques. Concernant la récompense, nous allons au-delà de l'apprentissage de fonctions de récompense avec des modèles externes basés sur l'image : nous exploitons plutôt l'occupation 3D générée pour définir directement des récompenses denses basées sur des règles pour la conformité et la sécurité de la conduite. Des expériences approfondies démontrent qu'OmniNWM atteint des performances de pointe en génération vidéo, précision de contrôle et stabilité sur de longues séquences, tout en fournissant un cadre d'évaluation en boucle fermée fiable grâce à des récompenses ancrées dans l'occupation. La page du projet est disponible à l'adresse https://github.com/Arlo0o/OmniNWM.

English

Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.

OmniNWM : Modèles mondiaux de navigation omnipotente pour la conduite

OmniNWM: Omniscient Driving Navigation World Models

papers.abstract

Support