通过规则学习实现的WALL-E:世界对齐改进基于世界模型的LLM代理WALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
大型语言模型(LLMs)能直接作为基于模型的代理的强大世界模型吗?尽管存在LLMs的先验知识与指定环境动态之间的差距,但我们的研究表明,通过将LLM与部署的环境对齐,这些差距是可以弥合的,而这种“世界对齐”可以通过LLMs上的规则学习高效实现。鉴于LLMs丰富的先验知识,只需少量附加规则即可使LLM预测与指定环境动态对齐。为此,我们提出了一种神经符号化方法,通过LLMs无梯度地学习这些规则,通过对比代理探索轨迹和世界模型预测来诱导、更新和修剪规则。最终的世界模型由LLM和学习到的规则组成。我们的具身LLM代理“WALL-E”基于模型预测控制(MPC)构建。通过根据精确的世界模型优化前瞻动作,MPC显著提高了探索和学习效率。与现有的LLM代理相比,WALL-E的推理只需要少量主要规则,而不需要将冗长的缓冲轨迹包含在LLM输入中。在Minecraft和ALFWorld的开放世界挑战中,WALL-E的成功率高于现有方法,重新规划时间和推理所用令牌数量更少。在Minecraft中,WALL-E的成功率比基线高出15-30%,重新规划轮次减少8-20轮,仅使用60-80%的令牌。在ALFWorld中,仅经过6次迭代,其成功率飙升至95%,创下了新的记录高点。