OmniNWM: Modelos de Mundo Omniscientes para Navegação de Veículos

Resumo

Modelos de mundo para direção autônoma são esperados para funcionar efetivamente em três dimensões principais: estado, ação e recompensa. No entanto, os modelos existentes são tipicamente restritos a modalidades de estado limitadas, sequências de vídeo curtas, controle de ação impreciso e falta de consciência sobre recompensas. Neste artigo, apresentamos o OmniNWM, um modelo de mundo de navegação panorâmica onisciente que aborda todas as três dimensões dentro de um framework unificado. Para o estado, o OmniNWM gera conjuntamente vídeos panorâmicos de RGB, semântica, profundidade métrica e ocupação 3D. Uma estratégia de forçamento flexível permite uma geração auto-regressiva de alta qualidade em horizontes longos. Para a ação, introduzimos uma representação normalizada de mapa de raios Plucker panorâmico que codifica trajetórias de entrada em sinais de nível de pixel, permitindo um controle altamente preciso e generalizável sobre a geração de vídeos panorâmicos. Em relação à recompensa, vamos além da aprendizagem de funções de recompensa com modelos baseados em imagens externas: em vez disso, aproveitamos a ocupação 3D gerada para definir diretamente recompensas densas baseadas em regras para conformidade e segurança na direção. Experimentos extensivos demonstram que o OmniNWM alcança desempenho de ponta em geração de vídeo, precisão de controle e estabilidade de longo horizonte, enquanto fornece um framework confiável de avaliação em loop fechado por meio de recompensas fundamentadas em ocupação. A página do projeto está disponível em https://github.com/Arlo0o/OmniNWM.

English

Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.

OmniNWM: Modelos de Mundo Omniscientes para Navegação de Veículos

OmniNWM: Omniscient Driving Navigation World Models

Resumo

Support