ChatPaper.aiChatPaper

DINO-WM: Мировые модели на предварительно обученных визуальных признаках позволяют планирование с нулевым шагом.

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

November 7, 2024
Авторы: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto
cs.AI

Аннотация

Способность предсказывать будущие результаты при заданных управляющих действиях является фундаментальной для физического рассуждения. Однако такие предиктивные модели, часто называемые моделями мира, оказались сложными для обучения и обычно разрабатываются для задачно-специфических решений с обучением политики в реальном времени. Мы утверждаем, что истинный потенциал моделей мира заключается в их способности рассуждать и планировать по разнообразным проблемам, используя только пассивные данные. Конкретно, мы требуем, чтобы у моделей мира были следующие три свойства: 1) возможность обучения на оффлайн, заранее собранных траекториях, 2) поддержка оптимизации поведения на этапе тестирования и 3) облегчение задачно-агностического рассуждения. Для реализации этого мы представляем DINO World Model (DINO-WM), новый метод моделирования визуальной динамики без восстановления визуального мира. DINO-WM использует пространственные признаки патчей, предварительно обученные с помощью DINOv2, что позволяет ему учиться на оффлайн поведенческих траекториях путем предсказания будущих признаков патчей. Такой подход позволяет DINO-WM достигать наблюдательных целей через оптимизацию последовательности действий, облегчая планирование поведения без привязки к задаче путем рассмотрения желаемых признаков патчей в качестве целевых для предсказания. Мы оцениваем DINO-WM в различных областях, включая навигацию в лабиринте, толкание по столу и манипулирование частицами. Наши эксперименты показывают, что DINO-WM способен генерировать решения нулевого шага на этапе тестирования без использования экспертных демонстраций, моделирования вознаграждения или предварительно обученных обратных моделей. Особенно стоит отметить, что DINO-WM обладает сильными возможностями обобщения по сравнению с предыдущими передовыми работами, адаптируясь к различным семействам задач, таким как лабиринты произвольной конфигурации, толкание с различными формами объектов и сценарии с несколькими частицами.
English
The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.

Summary

AI-Generated Summary

PDF132February 3, 2025