ChatPaper.aiChatPaper

WALL-E: Alineación Mundial mediante Aprendizaje de Reglas Mejora Agentes LLM basados en Modelos del Mundo

WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

October 9, 2024
Autores: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI

Resumen

¿Pueden los modelos de lenguaje grandes (LLMs) servir directamente como potentes modelos mundiales para agentes basados en modelos? Si bien existen brechas entre el conocimiento previo de los LLMs y la dinámica del entorno especificado, nuestro estudio revela que estas brechas pueden ser superadas al alinear un LLM con su entorno desplegado, y dicha "alineación mundial" puede lograrse eficientemente mediante el aprendizaje de reglas en los LLMs. Dado el rico conocimiento previo de los LLMs, solo unas pocas reglas adicionales son suficientes para alinear las predicciones de los LLMs con la dinámica del entorno especificado. Con este fin, proponemos un enfoque neurosimbólico para aprender estas reglas sin gradientes a través de los LLMs, induciendo, actualizando y podando reglas basadas en comparaciones de trayectorias exploradas por el agente y predicciones del modelo mundial. El modelo mundial resultante está compuesto por el LLM y las reglas aprendidas. Nuestro agente LLM encarnado "WALL-E" se basa en el control predictivo del modelo (MPC). Al optimizar las acciones de anticipación basadas en el modelo mundial preciso, MPC mejora significativamente la eficiencia de exploración y aprendizaje. En comparación con los agentes LLM existentes, el razonamiento de WALL-E solo requiere unas pocas reglas principales en lugar de trayectorias verbosas almacenadas en la entrada del LLM. En desafíos de mundo abierto en Minecraft y ALFWorld, WALL-E logra tasas de éxito más altas que los métodos existentes, con menores costos en tiempo de replanificación y en el número de tokens utilizados para el razonamiento. En Minecraft, WALL-E supera las líneas de base en un 15-30% en la tasa de éxito, mientras que requiere de 8-20 rondas de replanificación menos y solo el 60-80% de los tokens. En ALFWorld, su tasa de éxito aumenta a un nuevo récord del 95% después de solo 6 iteraciones.
English
Can large language models (LLMs) directly serve as powerful world models for model-based agents? While the gaps between the prior knowledge of LLMs and the specified environment's dynamics do exist, our study reveals that the gaps can be bridged by aligning an LLM with its deployed environment and such "world alignment" can be efficiently achieved by rule learning on LLMs. Given the rich prior knowledge of LLMs, only a few additional rules suffice to align LLM predictions with the specified environment dynamics. To this end, we propose a neurosymbolic approach to learn these rules gradient-free through LLMs, by inducing, updating, and pruning rules based on comparisons of agent-explored trajectories and world model predictions. The resulting world model is composed of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon model-predictive control (MPC). By optimizing look-ahead actions based on the precise world model, MPC significantly improves exploration and learning efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a few principal rules rather than verbose buffered trajectories being included in the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E achieves higher success rates than existing methods, with lower costs on replanning time and the number of tokens used for reasoning. In Minecraft, WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate surges to a new record high of 95% only after 6 iterations.

Summary

AI-Generated Summary

PDF513November 16, 2024