OmniNWM: Modelli del Mondo per la Navigazione di Guida Onnisciente
OmniNWM: Omniscient Driving Navigation World Models
October 21, 2025
Autori: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin
cs.AI
Abstract
I modelli mondiali per la guida autonoma sono attesi per funzionare efficacemente su tre dimensioni fondamentali: stato, azione e ricompensa. Tuttavia, i modelli esistenti sono tipicamente limitati a modalità di stato ristrette, sequenze video brevi, controllo impreciso delle azioni e una mancanza di consapevolezza della ricompensa. In questo articolo, introduciamo OmniNWM, un modello mondiale di navigazione panoramica onnisciente che affronta tutte e tre le dimensioni all'interno di un framework unificato. Per lo stato, OmniNWM genera congiuntamente video panoramici di RGB, semantica, profondità metrica e occupazione 3D. Una strategia di forzatura flessibile consente una generazione auto-regressiva di alta qualità su lunghi orizzonti temporali. Per l'azione, introduciamo una rappresentazione normalizzata a mappa di raggi Plucker panoramica che codifica le traiettorie di input in segnali a livello di pixel, consentendo un controllo altamente preciso e generalizzabile sulla generazione di video panoramici. Per quanto riguarda la ricompensa, andiamo oltre l'apprendimento di funzioni di ricompensa con modelli esterni basati su immagini: invece, sfruttiamo l'occupazione 3D generata per definire direttamente ricompense dense basate su regole per la conformità e la sicurezza della guida. Esperimenti estensivi dimostrano che OmniNWM raggiunge prestazioni all'avanguardia nella generazione video, precisione di controllo e stabilità su lunghi orizzonti temporali, fornendo al contempo un framework affidabile di valutazione a ciclo chiuso attraverso ricompense basate sull'occupazione. La pagina del progetto è disponibile all'indirizzo https://github.com/Arlo0o/OmniNWM.
English
Autonomous driving world models are expected to work effectively across three
core dimensions: state, action, and reward. Existing models, however, are
typically restricted to limited state modalities, short video sequences,
imprecise action control, and a lack of reward awareness. In this paper, we
introduce OmniNWM, an omniscient panoramic navigation world model that
addresses all three dimensions within a unified framework. For state, OmniNWM
jointly generates panoramic videos of RGB, semantics, metric depth, and 3D
occupancy. A flexible forcing strategy enables high-quality long-horizon
auto-regressive generation. For action, we introduce a normalized panoramic
Plucker ray-map representation that encodes input trajectories into pixel-level
signals, enabling highly precise and generalizable control over panoramic video
generation. Regarding reward, we move beyond learning reward functions with
external image-based models: instead, we leverage the generated 3D occupancy to
directly define rule-based dense rewards for driving compliance and safety.
Extensive experiments demonstrate that OmniNWM achieves state-of-the-art
performance in video generation, control accuracy, and long-horizon stability,
while providing a reliable closed-loop evaluation framework through
occupancy-grounded rewards. Project page is available at
https://github.com/Arlo0o/OmniNWM.