OmniNWM: Всеведущие модели мира для навигации вождения

Аннотация

Модели мира для автономного вождения должны эффективно работать в трех ключевых измерениях: состояние, действие и вознаграждение. Однако существующие модели обычно ограничены узким набором модальностей состояния, короткими видеопоследовательностями, неточным управлением действиями и отсутствием осведомленности о вознаграждении. В данной статье мы представляем OmniNWM — всеобъемлющую панорамную навигационную модель мира, которая охватывает все три измерения в рамках единой структуры. В отношении состояния OmniNWM совместно генерирует панорамные видео в форматах RGB, семантики, метрической глубины и 3D-оккупации. Гибкая стратегия принуждения обеспечивает высококачественную авторегрессионную генерацию на длительных временных горизонтах. Для действий мы вводим нормализованное представление панорамных лучей Плюккера, которое кодирует входные траектории в пиксельные сигналы, обеспечивая высокоточное и обобщаемое управление генерацией панорамных видео. В отношении вознаграждения мы выходим за рамки обучения функций вознаграждения с помощью внешних моделей на основе изображений: вместо этого мы используем сгенерированную 3D-оккупацию для прямого определения плотных вознаграждений на основе правил, обеспечивающих соблюдение правил вождения и безопасность. Многочисленные эксперименты демонстрируют, что OmniNWM достигает передовых результатов в генерации видео, точности управления и стабильности на длительных временных горизонтах, предоставляя надежную структуру для замкнутой оценки через вознаграждения, основанные на оккупации. Страница проекта доступна по адресу https://github.com/Arlo0o/OmniNWM.

English

Autonomous driving world models are expected to work effectively across three core dimensions: state, action, and reward. Existing models, however, are typically restricted to limited state modalities, short video sequences, imprecise action control, and a lack of reward awareness. In this paper, we introduce OmniNWM, an omniscient panoramic navigation world model that addresses all three dimensions within a unified framework. For state, OmniNWM jointly generates panoramic videos of RGB, semantics, metric depth, and 3D occupancy. A flexible forcing strategy enables high-quality long-horizon auto-regressive generation. For action, we introduce a normalized panoramic Plucker ray-map representation that encodes input trajectories into pixel-level signals, enabling highly precise and generalizable control over panoramic video generation. Regarding reward, we move beyond learning reward functions with external image-based models: instead, we leverage the generated 3D occupancy to directly define rule-based dense rewards for driving compliance and safety. Extensive experiments demonstrate that OmniNWM achieves state-of-the-art performance in video generation, control accuracy, and long-horizon stability, while providing a reliable closed-loop evaluation framework through occupancy-grounded rewards. Project page is available at https://github.com/Arlo0o/OmniNWM.

OmniNWM: Всеведущие модели мира для навигации вождения

OmniNWM: Omniscient Driving Navigation World Models

Аннотация

Support