ROCKET-1: ビジュアル・テンポラルコンテキストを活用したオープンワールドインタラクションのマスター
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
著者: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
要旨
ビジョン言語モデル(VLMs)は、マルチモーダルタスクで優れた成績を収めていますが、オープンワールド環境における具体的な意思決定への適応には課題があります。重要な問題の1つは、低レベルの観察における個々のエンティティと計画に必要な抽象的な概念をスムーズに結びつける難しさです。この問題に対処する一般的なアプローチは、階層エージェントを使用することです。ここでは、VLMsが高レベルの推論者として機能し、タスクを実行可能なサブタスクに分解する方法が一般的です。これらのサブタスクは通常、言語と想像された観察を使用して指定されます。しかし、言語はしばしば空間情報を効果的に伝達できず、将来の画像を十分な精度で生成することは依然として難しいです。これらの制限に対処するために、我々はビジュアル・テンポラル・コンテキスト・プロンプティングを提案します。これは、VLMsとポリシーモデル間の新しいコミュニケーションプロトコルであり、過去と現在の観察からのオブジェクト・セグメンテーションを活用してポリシー環境の相互作用をガイドします。このアプローチを使用して、我々はROCKET-1を訓練します。これは、リアルタイムのオブジェクトトラッキングによって提供されるセグメンテーションマスクと連結された視覚観察に基づいてアクションを予測する低レベルポリシーです。我々の手法は、VLMsのビジュアル言語推論能力のフルポテンシャルを引き出し、特に空間理解に大きく依存する複雑な創造的なタスクを解決することを可能にします。Minecraftでの実験は、我々のアプローチがエージェントが以前に達成不可能だったタスクを達成することを可能にし、具体的な意思決定におけるビジュアル・テンポラル・コンテキスト・プロンプティングの効果を示しています。コードとデモはプロジェクトページで入手可能です:https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary