ChatPaper.aiChatPaper

OmniNWM:全知運航ナビゲーションワールドモデル

OmniNWM: Omniscient Driving Navigation World Models

October 21, 2025
著者: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin
cs.AI

要旨

自動運転の世界モデルは、状態、行動、報酬という3つの核心的な次元において効果的に機能することが期待されています。しかし、既存のモデルは通常、限られた状態モダリティ、短いビデオシーケンス、不正確な行動制御、および報酬認識の欠如に制約されています。本論文では、これら3つの次元を統一フレームワーク内で扱う全知的なパノラマナビゲーションワールドモデル、OmniNWMを紹介します。状態に関して、OmniNWMはRGB、セマンティクス、メトリック深度、および3D占有空間のパノラマビデオを共同で生成します。柔軟な強制戦略により、高品質な長期自己回帰生成が可能となります。行動に関しては、入力軌跡をピクセルレベルの信号にエンコードする正規化されたパノラマPlucker光線マップ表現を導入し、パノラマビデオ生成に対する高度に正確で汎用性のある制御を実現します。報酬に関しては、外部の画像ベースモデルで報酬関数を学習することを超えて、生成された3D占有空間を活用して、運転の遵守と安全性のためのルールベースの密な報酬を直接定義します。広範な実験により、OmniNWMがビデオ生成、制御精度、および長期安定性において最先端の性能を達成し、占有空間に基づいた報酬を通じて信頼性の高い閉ループ評価フレームワークを提供することが示されています。プロジェクトページはhttps://github.com/Arlo0o/OmniNWMで利用可能です。
English
Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.
PDF62October 23, 2025