ChatPaper.aiChatPaper

WALL-E: 규칙 학습에 의한 세계 정렬이 세계 모델 기반 LLM 에이전트를 개선합니다.

WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

October 9, 2024
저자: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI

초록

대형 언어 모델 (LLM)이 모델 기반 에이전트에 대한 강력한 세계 모델로 직접 작용할 수 있을까요? LLM의 사전 지식과 특정 환경의 동적 사이에는 차이가 있지만, 우리의 연구는 LLM을 배포된 환경과 조정함으로써 이러한 차이를 극복할 수 있음을 밝혀냅니다. 이러한 "세계 조정"은 LLM에 대한 규칙 학습을 통해 효율적으로 달성할 수 있습니다. LLM의 풍부한 사전 지식을 감안할 때, 몇 가지 추가 규칙만으로도 LLM의 예측을 특정 환경의 동적과 일치시킬 수 있습니다. 이를 위해 우리는 LLM을 통해 규칙을 그레이디언트 없이 학습하는 신경기호주의 접근법을 제안합니다. 에이전트가 탐험한 궤적과 세계 모델 예측을 비교함으로써 규칙을 유도, 업데이트 및 가지치기합니다. 결과적으로 얻어지는 세계 모델은 LLM과 학습된 규칙으로 이루어집니다. 우리의 신체화된 LLM 에이전트 "WALL-E"는 모델 예측 제어(MPC)에 기반을 두고 구축되었습니다. 정확한 세계 모델을 기반으로 전방 조치를 최적화함으로써, MPC는 탐사 및 학습 효율을 크게 향상시킵니다. 기존 LLM 에이전트와 비교했을 때, WALL-E의 추론은 LLM 입력에 포함된 상세한 버퍼 궤적 대신 몇 가지 주요 규칙만 필요로 합니다. Minecraft와 ALFWorld의 오픈 월드 도전 과제에서, WALL-E는 기존 방법보다 더 높은 성공률을 달성하면서 재계획 시간 및 추론에 사용된 토큰 수를 줄일 수 있습니다. Minecraft에서 WALL-E는 성공률에서 15-30%의 기준을 초과하며, 8-20회의 재계획 라운드를 줄이고 토큰의 60-80%만을 사용합니다. ALFWorld에서는 6번의 반복만에 성공률이 95%로 급증합니다.
English
Can large language models (LLMs) directly serve as powerful world models for model-based agents? While the gaps between the prior knowledge of LLMs and the specified environment's dynamics do exist, our study reveals that the gaps can be bridged by aligning an LLM with its deployed environment and such "world alignment" can be efficiently achieved by rule learning on LLMs. Given the rich prior knowledge of LLMs, only a few additional rules suffice to align LLM predictions with the specified environment dynamics. To this end, we propose a neurosymbolic approach to learn these rules gradient-free through LLMs, by inducing, updating, and pruning rules based on comparisons of agent-explored trajectories and world model predictions. The resulting world model is composed of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon model-predictive control (MPC). By optimizing look-ahead actions based on the precise world model, MPC significantly improves exploration and learning efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a few principal rules rather than verbose buffered trajectories being included in the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E achieves higher success rates than existing methods, with lower costs on replanning time and the number of tokens used for reasoning. In Minecraft, WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate surges to a new record high of 95% only after 6 iterations.

Summary

AI-Generated Summary

PDF513November 16, 2024