ROCKET-1:利用視覺-時間上下文促進主動式開放世界互動ROCKET-1: Master Open-World Interaction with Visual-Temporal Context
Prompting
視覺語言模型(VLMs)在多模式任務中表現出色,但將它們適應於開放世界環境中的具體決策面臨挑戰。一個關鍵問題是在低級觀察中個別實體與計劃所需的抽象概念之間平滑連接的困難。解決此問題的常見方法是使用分層代理,其中VLMs充當高級推理者,將任務分解為可執行的子任務,通常使用語言和想像觀察來指定。然而,語言通常無法有效傳達空間信息,同時生成具有足夠準確性的未來圖像仍然具有挑戰性。為了解決這些限制,我們提出了視覺-時間上下文提示,這是VLMs和策略模型之間的一種新型通信協議。該協議利用過去和現在觀察中的對象分割來引導策略-環境交互作用。使用這種方法,我們訓練了ROCKET-1,一種低級策略,它基於串聯的視覺觀察和分割遮罩來預測動作,並由SAM-2提供實時對象跟踪。我們的方法發揮了VLMs視覺語言推理能力的全部潛力,使它們能夠解決複雜的創造性任務,特別是那些嚴重依賴空間理解的任務。在Minecraft中的實驗表明,我們的方法使代理能夠完成以前難以實現的任務,突出了視覺-時間上下文提示在具體決策中的有效性。代碼和演示將在項目頁面上提供:https://craftjarvis.github.io/ROCKET-1。