WALL-E: Allineamento Mondiale tramite Apprendimento delle Regole Migliora gli Agenti LLM basati su Modelli Mondiali
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
October 9, 2024
Autori: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Abstract
Possono i grandi modelli linguistici (LLM) servire direttamente come potenti modelli del mondo per agenti basati su modelli? Sebbene esistano delle lacune tra la conoscenza pregressa dei LLM e la dinamica dell'ambiente specificato, il nostro studio rivela che tali lacune possono essere colmate allineando un LLM con il suo ambiente implementato e tale "allineamento del mondo" può essere raggiunto in modo efficiente tramite apprendimento di regole sui LLM. Data la ricca conoscenza pregressa dei LLM, solo poche regole aggiuntive sono sufficienti per allineare le previsioni dei LLM con la dinamica dell'ambiente specificato. A tal fine, proponiamo un approccio neurosimbolico per apprendere queste regole senza gradienti attraverso i LLM, inducendo, aggiornando e potando regole basate su confronti tra traiettorie esplorate dagli agenti e previsioni del modello del mondo. Il modello del mondo risultante è composto dal LLM e dalle regole apprese. Il nostro agente LLM incorporato "WALL-E" si basa sul controllo predittivo del modello (MPC). Ottimizzando le azioni di previsione basate sul preciso modello del mondo, MPC migliora significativamente l'efficienza dell'esplorazione e dell'apprendimento. Rispetto agli agenti LLM esistenti, il ragionamento di WALL-E richiede solo poche regole principali anziché traiettorie bufferizzate verbosamente incluse nell'input del LLM. Sfide di mondo aperto in Minecraft e ALFWorld, WALL-E raggiunge tassi di successo più elevati rispetto ai metodi esistenti, con minori costi in termini di tempo di ripianificazione e numero di token utilizzati per il ragionamento. In Minecraft, WALL-E supera i valori di base del 15-30% nel tasso di successo pur costando da 8 a 20 round di ripianificazione in meno e solo il 60-80% dei token. In ALFWorld, il suo tasso di successo sale a un nuovo record del 95% solo dopo 6 iterazioni.
English
Can large language models (LLMs) directly serve as powerful world models for
model-based agents? While the gaps between the prior knowledge of LLMs and the
specified environment's dynamics do exist, our study reveals that the gaps can
be bridged by aligning an LLM with its deployed environment and such "world
alignment" can be efficiently achieved by rule learning on LLMs. Given the rich
prior knowledge of LLMs, only a few additional rules suffice to align LLM
predictions with the specified environment dynamics. To this end, we propose a
neurosymbolic approach to learn these rules gradient-free through LLMs, by
inducing, updating, and pruning rules based on comparisons of agent-explored
trajectories and world model predictions. The resulting world model is composed
of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon
model-predictive control (MPC). By optimizing look-ahead actions based on the
precise world model, MPC significantly improves exploration and learning
efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a
few principal rules rather than verbose buffered trajectories being included in
the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E
achieves higher success rates than existing methods, with lower costs on
replanning time and the number of tokens used for reasoning. In Minecraft,
WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer
replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate
surges to a new record high of 95% only after 6 iterations.