ChatPaper.aiChatPaper

WALL-E: Weltweite Ausrichtung durch Regel-Lernen verbessert weltmodellbasierte LLM-Agenten

WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

October 9, 2024
Autoren: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI

Zusammenfassung

Können große Sprachmodelle (LLMs) direkt als leistungsstarke Weltmodelle für agentenbasierte Modelle dienen? Obwohl Unterschiede zwischen dem vorhandenen Wissen von LLMs und der Dynamik der spezifizierten Umgebung bestehen, zeigt unsere Studie, dass diese Unterschiede durch die Ausrichtung eines LLM auf seine implementierte Umgebung überbrückt werden können. Eine solche "Weltausrichtung" kann effizient durch das Erlernen von Regeln auf LLMs erreicht werden. Angesichts des umfangreichen vorhandenen Wissens von LLMs genügen nur wenige zusätzliche Regeln, um die Vorhersagen des LLM mit der Dynamik der spezifizierten Umgebung in Einklang zu bringen. Zu diesem Zweck schlagen wir einen neurosymbolischen Ansatz vor, um diese Regeln gradientenfrei durch LLMs zu erlernen, indem Regeln auf der Grundlage von Vergleichen von Agenten-erkundeten Trajektorien und Weltmodellvorhersagen induziert, aktualisiert und beschnitten werden. Das resultierende Weltmodell besteht aus dem LLM und den erlernten Regeln. Unser verkörperter LLM-Agent "WALL-E" basiert auf modellprädiktiver Regelung (MPC). Durch Optimierung von vorausschauenden Aktionen auf der Grundlage des präzisen Weltmodells verbessert MPC die Erkundung und Lerneffizienz erheblich. Im Vergleich zu bestehenden LLM-Agenten erfordert das Denken von WALL-E nur wenige grundlegende Regeln anstelle von ausführlichen gepufferten Trajektorien, die in die LLM-Eingabe einbezogen werden. Bei offenen Herausforderungen in Minecraft und ALFWorld erzielt WALL-E höhere Erfolgsraten als bestehende Methoden, bei geringeren Kosten für die Neuplanungszeit und die Anzahl der für das Denken verwendeten Token. In Minecraft übertrifft WALL-E die Baselines um 15-30% in der Erfolgsrate und benötigt 8-20 weniger Neuplanungsrunden sowie nur 60-80% der Tokens. In ALFWorld steigt seine Erfolgsrate nach nur 6 Iterationen auf einen neuen Rekordwert von 95%.
English
Can large language models (LLMs) directly serve as powerful world models for model-based agents? While the gaps between the prior knowledge of LLMs and the specified environment's dynamics do exist, our study reveals that the gaps can be bridged by aligning an LLM with its deployed environment and such "world alignment" can be efficiently achieved by rule learning on LLMs. Given the rich prior knowledge of LLMs, only a few additional rules suffice to align LLM predictions with the specified environment dynamics. To this end, we propose a neurosymbolic approach to learn these rules gradient-free through LLMs, by inducing, updating, and pruning rules based on comparisons of agent-explored trajectories and world model predictions. The resulting world model is composed of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon model-predictive control (MPC). By optimizing look-ahead actions based on the precise world model, MPC significantly improves exploration and learning efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a few principal rules rather than verbose buffered trajectories being included in the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E achieves higher success rates than existing methods, with lower costs on replanning time and the number of tokens used for reasoning. In Minecraft, WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate surges to a new record high of 95% only after 6 iterations.

Summary

AI-Generated Summary

PDF513November 16, 2024