WALL-E: Weltweite Ausrichtung durch Regel-Lernen verbessert weltmodellbasierte LLM-Agenten
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
October 9, 2024
Autoren: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Zusammenfassung
Können große Sprachmodelle (LLMs) direkt als leistungsstarke Weltmodelle für agentenbasierte Modelle dienen? Obwohl Unterschiede zwischen dem vorhandenen Wissen von LLMs und der Dynamik der spezifizierten Umgebung bestehen, zeigt unsere Studie, dass diese Unterschiede durch die Ausrichtung eines LLM auf seine implementierte Umgebung überbrückt werden können. Eine solche "Weltausrichtung" kann effizient durch das Erlernen von Regeln auf LLMs erreicht werden. Angesichts des umfangreichen vorhandenen Wissens von LLMs genügen nur wenige zusätzliche Regeln, um die Vorhersagen des LLM mit der Dynamik der spezifizierten Umgebung in Einklang zu bringen. Zu diesem Zweck schlagen wir einen neurosymbolischen Ansatz vor, um diese Regeln gradientenfrei durch LLMs zu erlernen, indem Regeln auf der Grundlage von Vergleichen von Agenten-erkundeten Trajektorien und Weltmodellvorhersagen induziert, aktualisiert und beschnitten werden. Das resultierende Weltmodell besteht aus dem LLM und den erlernten Regeln. Unser verkörperter LLM-Agent "WALL-E" basiert auf modellprädiktiver Regelung (MPC). Durch Optimierung von vorausschauenden Aktionen auf der Grundlage des präzisen Weltmodells verbessert MPC die Erkundung und Lerneffizienz erheblich. Im Vergleich zu bestehenden LLM-Agenten erfordert das Denken von WALL-E nur wenige grundlegende Regeln anstelle von ausführlichen gepufferten Trajektorien, die in die LLM-Eingabe einbezogen werden. Bei offenen Herausforderungen in Minecraft und ALFWorld erzielt WALL-E höhere Erfolgsraten als bestehende Methoden, bei geringeren Kosten für die Neuplanungszeit und die Anzahl der für das Denken verwendeten Token. In Minecraft übertrifft WALL-E die Baselines um 15-30% in der Erfolgsrate und benötigt 8-20 weniger Neuplanungsrunden sowie nur 60-80% der Tokens. In ALFWorld steigt seine Erfolgsrate nach nur 6 Iterationen auf einen neuen Rekordwert von 95%.
English
Can large language models (LLMs) directly serve as powerful world models for
model-based agents? While the gaps between the prior knowledge of LLMs and the
specified environment's dynamics do exist, our study reveals that the gaps can
be bridged by aligning an LLM with its deployed environment and such "world
alignment" can be efficiently achieved by rule learning on LLMs. Given the rich
prior knowledge of LLMs, only a few additional rules suffice to align LLM
predictions with the specified environment dynamics. To this end, we propose a
neurosymbolic approach to learn these rules gradient-free through LLMs, by
inducing, updating, and pruning rules based on comparisons of agent-explored
trajectories and world model predictions. The resulting world model is composed
of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon
model-predictive control (MPC). By optimizing look-ahead actions based on the
precise world model, MPC significantly improves exploration and learning
efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a
few principal rules rather than verbose buffered trajectories being included in
the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E
achieves higher success rates than existing methods, with lower costs on
replanning time and the number of tokens used for reasoning. In Minecraft,
WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer
replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate
surges to a new record high of 95% only after 6 iterations.Summary
AI-Generated Summary