ROCKET-1: ビジュアル・テンポラルコンテキストを活用したオープンワールドインタラクションのマスターROCKET-1: Master Open-World Interaction with Visual-Temporal Context
Prompting
ビジョン言語モデル(VLMs)は、マルチモーダルタスクで優れた成績を収めていますが、オープンワールド環境における具体的な意思決定への適応には課題があります。重要な問題の1つは、低レベルの観察における個々のエンティティと計画に必要な抽象的な概念をスムーズに結びつける難しさです。この問題に対処する一般的なアプローチは、階層エージェントを使用することです。ここでは、VLMsが高レベルの推論者として機能し、タスクを実行可能なサブタスクに分解する方法が一般的です。これらのサブタスクは通常、言語と想像された観察を使用して指定されます。しかし、言語はしばしば空間情報を効果的に伝達できず、将来の画像を十分な精度で生成することは依然として難しいです。これらの制限に対処するために、我々はビジュアル・テンポラル・コンテキスト・プロンプティングを提案します。これは、VLMsとポリシーモデル間の新しいコミュニケーションプロトコルであり、過去と現在の観察からのオブジェクト・セグメンテーションを活用してポリシー環境の相互作用をガイドします。このアプローチを使用して、我々はROCKET-1を訓練します。これは、リアルタイムのオブジェクトトラッキングによって提供されるセグメンテーションマスクと連結された視覚観察に基づいてアクションを予測する低レベルポリシーです。我々の手法は、VLMsのビジュアル言語推論能力のフルポテンシャルを引き出し、特に空間理解に大きく依存する複雑な創造的なタスクを解決することを可能にします。Minecraftでの実験は、我々のアプローチがエージェントが以前に達成不可能だったタスクを達成することを可能にし、具体的な意思決定におけるビジュアル・テンポラル・コンテキスト・プロンプティングの効果を示しています。コードとデモはプロジェクトページで入手可能です:https://craftjarvis.github.io/ROCKET-1.