ROCKET-1: Dominio de la Interacción en Mundo Abierto con Contexto Visual-Temporal Estímulo
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Autores: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Resumen
Los modelos visión-lenguaje (VLMs) han destacado en tareas multimodales, pero adaptarlos a la toma de decisiones incorporada en entornos de mundo abierto presenta desafíos. Un problema clave es la dificultad de conectar de manera fluida entidades individuales en observaciones de bajo nivel con conceptos abstractos necesarios para la planificación. Un enfoque común para abordar este problema es a través del uso de agentes jerárquicos, donde los VLMs actúan como razonadores de alto nivel que desglosan tareas en subtareas ejecutables, generalmente especificadas utilizando lenguaje y observaciones imaginadas. Sin embargo, el lenguaje a menudo no logra transmitir eficazmente información espacial, mientras que generar imágenes futuras con suficiente precisión sigue siendo un desafío. Para abordar estas limitaciones, proponemos el estímulo de contexto visual-temporal, un protocolo de comunicación novedoso entre VLMs y modelos de política. Este protocolo aprovecha la segmentación de objetos tanto de observaciones pasadas como presentes para guiar las interacciones política-entorno. Utilizando este enfoque, entrenamos ROCKET-1, una política de bajo nivel que predice acciones basadas en observaciones visuales concatenadas y máscaras de segmentación, con seguimiento de objetos en tiempo real proporcionado por SAM-2. Nuestro método desbloquea el potencial completo de las habilidades de razonamiento visual-lenguaje de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente aquellas que dependen en gran medida de la comprensión espacial. Experimentos en Minecraft demuestran que nuestro enfoque permite a los agentes realizar tareas previamente inalcanzables, destacando la efectividad del estímulo de contexto visual-temporal en la toma de decisiones incorporada. Los códigos y demos estarán disponibles en la página del proyecto: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary