OmniNWM: 전지적 주행 내비게이션 월드 모델
OmniNWM: Omniscient Driving Navigation World Models
October 21, 2025
저자: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin
cs.AI
초록
자율주행 세계 모델은 상태, 행동, 보상이라는 세 가지 핵심 차원에서 효과적으로 작동할 것으로 기대됩니다. 그러나 기존 모델들은 일반적으로 제한된 상태 양식, 짧은 비디오 시퀀스, 부정확한 행동 제어, 그리고 보상 인식의 부재에 제약을 받고 있습니다. 본 논문에서는 이 세 가지 차원을 통합된 프레임워크 내에서 해결하는 전지적 파노라마 내비게이션 세계 모델인 OmniNWM을 소개합니다. 상태 측면에서 OmniNWM은 RGB, 의미론, 미터법 깊이, 그리고 3D 점유도를 포함한 파노라마 비디오를 동시에 생성합니다. 유연한 강제 전략을 통해 고품질의 장기간 자동회귀 생성을 가능하게 합니다. 행동 측면에서는 입력 궤적을 픽셀 수준의 신호로 인코딩하는 정규화된 파노라마 Plucker 광선 맵 표현을 도입하여 파노라마 비디오 생성에 대한 매우 정밀하고 일반화 가능한 제어를 가능하게 합니다. 보상 측면에서는 외부 이미지 기반 모델을 사용하여 보상 함수를 학습하는 것을 넘어, 생성된 3D 점유도를 활용하여 운전 준수와 안전을 위한 규칙 기반의 밀집 보상을 직접 정의합니다. 광범위한 실험을 통해 OmniNWM이 비디오 생성, 제어 정확도, 장기간 안정성에서 최첨단 성능을 달성하며, 점유도 기반 보상을 통해 신뢰할 수 있는 폐루프 평가 프레임워크를 제공함을 입증합니다. 프로젝트 페이지는 https://github.com/Arlo0o/OmniNWM에서 확인할 수 있습니다.
English
Autonomous driving world models are expected to work effectively across three
core dimensions: state, action, and reward. Existing models, however, are
typically restricted to limited state modalities, short video sequences,
imprecise action control, and a lack of reward awareness. In this paper, we
introduce OmniNWM, an omniscient panoramic navigation world model that
addresses all three dimensions within a unified framework. For state, OmniNWM
jointly generates panoramic videos of RGB, semantics, metric depth, and 3D
occupancy. A flexible forcing strategy enables high-quality long-horizon
auto-regressive generation. For action, we introduce a normalized panoramic
Plucker ray-map representation that encodes input trajectories into pixel-level
signals, enabling highly precise and generalizable control over panoramic video
generation. Regarding reward, we move beyond learning reward functions with
external image-based models: instead, we leverage the generated 3D occupancy to
directly define rule-based dense rewards for driving compliance and safety.
Extensive experiments demonstrate that OmniNWM achieves state-of-the-art
performance in video generation, control accuracy, and long-horizon stability,
while providing a reliable closed-loop evaluation framework through
occupancy-grounded rewards. Project page is available at
https://github.com/Arlo0o/OmniNWM.