WALL-E: 규칙 학습에 의한 세계 정렬이 세계 모델 기반 LLM 에이전트를 개선합니다.WALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
대형 언어 모델 (LLM)이 모델 기반 에이전트에 대한 강력한 세계 모델로 직접 작용할 수 있을까요? LLM의 사전 지식과 특정 환경의 동적 사이에는 차이가 있지만, 우리의 연구는 LLM을 배포된 환경과 조정함으로써 이러한 차이를 극복할 수 있음을 밝혀냅니다. 이러한 "세계 조정"은 LLM에 대한 규칙 학습을 통해 효율적으로 달성할 수 있습니다. LLM의 풍부한 사전 지식을 감안할 때, 몇 가지 추가 규칙만으로도 LLM의 예측을 특정 환경의 동적과 일치시킬 수 있습니다. 이를 위해 우리는 LLM을 통해 규칙을 그레이디언트 없이 학습하는 신경기호주의 접근법을 제안합니다. 에이전트가 탐험한 궤적과 세계 모델 예측을 비교함으로써 규칙을 유도, 업데이트 및 가지치기합니다. 결과적으로 얻어지는 세계 모델은 LLM과 학습된 규칙으로 이루어집니다. 우리의 신체화된 LLM 에이전트 "WALL-E"는 모델 예측 제어(MPC)에 기반을 두고 구축되었습니다. 정확한 세계 모델을 기반으로 전방 조치를 최적화함으로써, MPC는 탐사 및 학습 효율을 크게 향상시킵니다. 기존 LLM 에이전트와 비교했을 때, WALL-E의 추론은 LLM 입력에 포함된 상세한 버퍼 궤적 대신 몇 가지 주요 규칙만 필요로 합니다. Minecraft와 ALFWorld의 오픈 월드 도전 과제에서, WALL-E는 기존 방법보다 더 높은 성공률을 달성하면서 재계획 시간 및 추론에 사용된 토큰 수를 줄일 수 있습니다. Minecraft에서 WALL-E는 성공률에서 15-30%의 기준을 초과하며, 8-20회의 재계획 라운드를 줄이고 토큰의 60-80%만을 사용합니다. ALFWorld에서는 6번의 반복만에 성공률이 95%로 급증합니다.