WALL-E:通過規則學習改善基於世界模型的LLM代理WALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
大型語言模型(LLMs)可以直接作為基於模型的代理人強大的世界模型嗎?儘管存在LLMs的先前知識與指定環境動態之間的差距,但我們的研究顯示這些差距可以通過將LLM與其部署的環境對齊來彌合,而這種“世界對齊”可以通過在LLMs上進行規則學習來有效實現。鑒於LLMs豐富的先前知識,僅需一些額外的規則就足以將LLM的預測與指定環境動態對齊。為此,我們提出了一種神經符號方法,通過LLMs無梯度地學習這些規則,通過對代理人探索的軌跡和世界模型預測進行比較來誘導、更新和修剪規則。所得的世界模型由LLM和學習到的規則組成。我們的具體化LLM代理人“WALL-E”建立在模型預測控制(MPC)之上。通過基於精確世界模型優化前瞻行動,MPC顯著提高了探索和學習效率。與現有的LLM代理人相比,WALL-E的推理只需要少數主要規則,而不需要在LLM輸入中包含冗長的緩衝軌跡。在Minecraft和ALFWorld的開放世界挑戰中,WALL-E的成功率高於現有方法,重新規劃時間和用於推理的令牌數量成本更低。在Minecraft中,WALL-E的成功率超過基準線15-30%,同時重新規劃輪數減少8-20,僅使用60-80%的令牌。在ALFWorld中,僅經過6次迭代後,其成功率飆升至95%,創下新的歷史記錄。