ROCKET-1: Dominio de la Interacción en Mundo Abierto con Contexto Visual-Temporal
EstímuloROCKET-1: Master Open-World Interaction with Visual-Temporal Context
Prompting
Los modelos visión-lenguaje (VLMs) han destacado en tareas multimodales, pero adaptarlos a la toma de decisiones incorporada en entornos de mundo abierto presenta desafíos. Un problema clave es la dificultad de conectar de manera fluida entidades individuales en observaciones de bajo nivel con conceptos abstractos necesarios para la planificación. Un enfoque común para abordar este problema es a través del uso de agentes jerárquicos, donde los VLMs actúan como razonadores de alto nivel que desglosan tareas en subtareas ejecutables, generalmente especificadas utilizando lenguaje y observaciones imaginadas. Sin embargo, el lenguaje a menudo no logra transmitir eficazmente información espacial, mientras que generar imágenes futuras con suficiente precisión sigue siendo un desafío. Para abordar estas limitaciones, proponemos el estímulo de contexto visual-temporal, un protocolo de comunicación novedoso entre VLMs y modelos de política. Este protocolo aprovecha la segmentación de objetos tanto de observaciones pasadas como presentes para guiar las interacciones política-entorno. Utilizando este enfoque, entrenamos ROCKET-1, una política de bajo nivel que predice acciones basadas en observaciones visuales concatenadas y máscaras de segmentación, con seguimiento de objetos en tiempo real proporcionado por SAM-2. Nuestro método desbloquea el potencial completo de las habilidades de razonamiento visual-lenguaje de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente aquellas que dependen en gran medida de la comprensión espacial. Experimentos en Minecraft demuestran que nuestro enfoque permite a los agentes realizar tareas previamente inalcanzables, destacando la efectividad del estímulo de contexto visual-temporal en la toma de decisiones incorporada. Los códigos y demos estarán disponibles en la página del proyecto: https://craftjarvis.github.io/ROCKET-1.