ROCKET-1: Овладение взаимодействием в открытом мире с визуально-временным контекстом. Подсказка
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Авторы: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Аннотация
Модели видео-языка (VLM) проявили себя в мультимодальных задачах, однако их адаптация к принятию решений в открытых средах представляет определенные трудности. Одной из ключевых проблем является сложность плавного соединения отдельных сущностей в низкоуровневых наблюдениях с абстрактными концепциями, необходимыми для планирования. Распространенным подходом к решению этой проблемы является использование иерархических агентов, где модели VLM выступают в качестве высокоуровневых рассудителей, разбивая задачи на выполнимые подзадачи, обычно указываемые с использованием языка и воображаемых наблюдений. Однако язык часто неэффективно передает пространственную информацию, а генерация будущих изображений с достаточной точностью остается сложной задачей. Для преодоления этих ограничений мы предлагаем визуально-временное контекстное подсказывание, новый протокол коммуникации между моделями VLM и политиками. Этот протокол использует сегментацию объектов как из прошлых, так и из текущих наблюдений для направления взаимодействий политики с окружающей средой. С использованием этого подхода мы обучаем ROCKET-1, низкоуровневую политику, предсказывающую действия на основе объединенных визуальных наблюдений и масок сегментации, с отслеживанием объектов в реальном времени, предоставляемым SAM-2. Наш метод разблокирует полный потенциал способностей моделей VLM в визуально-языковом рассуждении, позволяя им решать сложные творческие задачи, особенно те, которые сильно зависят от пространственного понимания. Эксперименты в Minecraft показывают, что наш подход позволяет агентам выполнять ранее недостижимые задачи, подчеркивая эффективность визуально-временного контекстного подсказывания в принятии решений в открытых средах. Коды и демонстрации будут доступны на странице проекта: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary