로켓-1: 시각-시간적 맥락을 활용한 마스터 오픈 월드 상호작용
프롬프팅ROCKET-1: Master Open-World Interaction with Visual-Temporal Context
Prompting
비전-언어 모델(VLMs)은 다중 모달 작업에서 뛰어나지만 개방형 환경에서 실체 결정을 하는 데 적응하는 것은 도전적입니다. 핵심 문제는 저수준 관찰에서 개별 개체를 계획에 필요한 추상적인 개념과 부드럽게 연결하는 어려움입니다. 이 문제를 해결하기 위한 일반적인 접근 방식은 계층적 에이전트를 사용하는 것인데, 여기서 VLMs는 고수준 추론자로 작용하여 작업을 실행 가능한 하위 작업으로 분해하며 일반적으로 언어와 상상된 관찰을 사용하여 명시합니다. 그러나 언어는 종종 공간 정보를 효과적으로 전달하지 못하며 미래 이미지를 충분히 정확하게 생성하는 것은 여전히 어려운 문제입니다. 이러한 제한을 해결하기 위해 우리는 비전-시간적 컨텍스트 프롬프팅을 제안합니다. 이는 VLMs와 정책 모델 간의 혁신적인 통신 프로토콜로, 과거 및 현재 관찰로부터의 객체 분할을 활용하여 정책-환경 상호작용을 안내합니다. 이 접근 방식을 사용하여 우리는 ROCKET-1을 훈련시킵니다. 이는 시각적 관찰과 분할 마스크를 연결하여 행동을 예측하는 저수준 정책으로, SAM-2가 제공하는 실시간 객체 추적을 사용합니다. 우리의 방법은 VLMs의 시각-언어 추론 능력의 전체 잠재력을 발휘하여 복잡한 창의적 작업을 해결할 수 있게 하며, 특히 공간 이해에 크게 의존하는 작업을 해결할 수 있습니다. Minecraft에서의 실험은 우리의 접근 방식이 에이전트가 이전에 달성할 수 없었던 작업을 수행하도록 허용하며, 실체 결정에서 시각-시간적 컨텍스트 프롬프팅의 효과를 강조합니다. 코드 및 데모는 프로젝트 페이지에서 제공됩니다: https://craftjarvis.github.io/ROCKET-1.