ROCKET-1: Овладение взаимодействием в открытом мире с визуально-временным контекстом. ПодсказкаROCKET-1: Master Open-World Interaction with Visual-Temporal Context
Prompting
Модели видео-языка (VLM) проявили себя в мультимодальных задачах, однако их адаптация к принятию решений в открытых средах представляет определенные трудности. Одной из ключевых проблем является сложность плавного соединения отдельных сущностей в низкоуровневых наблюдениях с абстрактными концепциями, необходимыми для планирования. Распространенным подходом к решению этой проблемы является использование иерархических агентов, где модели VLM выступают в качестве высокоуровневых рассудителей, разбивая задачи на выполнимые подзадачи, обычно указываемые с использованием языка и воображаемых наблюдений. Однако язык часто неэффективно передает пространственную информацию, а генерация будущих изображений с достаточной точностью остается сложной задачей. Для преодоления этих ограничений мы предлагаем визуально-временное контекстное подсказывание, новый протокол коммуникации между моделями VLM и политиками. Этот протокол использует сегментацию объектов как из прошлых, так и из текущих наблюдений для направления взаимодействий политики с окружающей средой. С использованием этого подхода мы обучаем ROCKET-1, низкоуровневую политику, предсказывающую действия на основе объединенных визуальных наблюдений и масок сегментации, с отслеживанием объектов в реальном времени, предоставляемым SAM-2. Наш метод разблокирует полный потенциал способностей моделей VLM в визуально-языковом рассуждении, позволяя им решать сложные творческие задачи, особенно те, которые сильно зависят от пространственного понимания. Эксперименты в Minecraft показывают, что наш подход позволяет агентам выполнять ранее недостижимые задачи, подчеркивая эффективность визуально-временного контекстного подсказывания в принятии решений в открытых средах. Коды и демонстрации будут доступны на странице проекта: https://craftjarvis.github.io/ROCKET-1.