ChatPaper.aiChatPaper

OmniNWM: Modelli del Mondo per la Navigazione di Guida Onnisciente

OmniNWM: Omniscient Driving Navigation World Models

October 21, 2025
Autori: Bohan Li, Zhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin
cs.AI

Abstract

I modelli mondiali per la guida autonoma sono attesi per funzionare efficacemente su tre dimensioni fondamentali: stato, azione e ricompensa. Tuttavia, i modelli esistenti sono tipicamente limitati a modalità di stato ristrette, sequenze video brevi, controllo impreciso delle azioni e una mancanza di consapevolezza della ricompensa. In questo articolo, introduciamo OmniNWM, un modello mondiale di navigazione panoramica onnisciente che affronta tutte e tre le dimensioni all'interno di un framework unificato. Per lo stato, OmniNWM genera congiuntamente video panoramici di RGB, semantica, profondità metrica e occupazione 3D. Una strategia di forzatura flessibile consente una generazione auto-regressiva di alta qualità su lunghi orizzonti temporali. Per l'azione, introduciamo una rappresentazione normalizzata a mappa di raggi Plucker panoramica che codifica le traiettorie di input in segnali a livello di pixel, consentendo un controllo altamente preciso e generalizzabile sulla generazione di video panoramici. Per quanto riguarda la ricompensa, andiamo oltre l'apprendimento di funzioni di ricompensa con modelli esterni basati su immagini: invece, sfruttiamo l'occupazione 3D generata per definire direttamente ricompense dense basate su regole per la conformità e la sicurezza della guida. Esperimenti estensivi dimostrano che OmniNWM raggiunge prestazioni all'avanguardia nella generazione video, precisione di controllo e stabilità su lunghi orizzonti temporali, fornendo al contempo un framework affidabile di valutazione a ciclo chiuso attraverso ricompense basate sull'occupazione. La pagina del progetto è disponibile all'indirizzo https://github.com/Arlo0o/OmniNWM.
English
Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.
PDF62October 23, 2025