ROCKET-1: Domine a Interação em Mundo Aberto com Contexto Visual-Temporal Estímulo
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Autores: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) têm se destacado em tarefas multimodais, mas adaptá-los para tomada de decisão incorporada em ambientes de mundo aberto apresenta desafios. Um problema-chave é a dificuldade em conectar de forma fluida entidades individuais em observações de baixo nível com conceitos abstratos necessários para o planejamento. Uma abordagem comum para lidar com esse problema é através do uso de agentes hierárquicos, onde os VLMs atuam como raciocinadores de alto nível que dividem tarefas em subtarefas executáveis, geralmente especificadas usando linguagem e observações imaginadas. No entanto, a linguagem frequentemente falha em transmitir efetivamente informações espaciais, enquanto a geração de imagens futuras com precisão suficiente continua sendo um desafio. Para lidar com essas limitações, propomos a indução de contexto visual-temporal, um novo protocolo de comunicação entre VLMs e modelos de política. Esse protocolo aproveita a segmentação de objetos a partir de observações passadas e presentes para orientar as interações política-ambiente. Usando essa abordagem, treinamos o ROCKET-1, uma política de baixo nível que prevê ações com base em observações visuais concatenadas e máscaras de segmentação, com rastreamento de objetos em tempo real fornecido pelo SAM-2. Nosso método desbloqueia todo o potencial das habilidades de raciocínio visual-linguagem dos VLMs, permitindo que resolvam tarefas criativas complexas, especialmente aquelas fortemente dependentes de compreensão espacial. Experimentos no Minecraft demonstram que nossa abordagem permite que agentes realizem tarefas anteriormente inatingíveis, destacando a eficácia da indução de contexto visual-temporal na tomada de decisão incorporada. Códigos e demonstrações estarão disponíveis na página do projeto: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary