WALL-E: Alineación Mundial mediante Aprendizaje de Reglas Mejora Agentes LLM basados en Modelos del MundoWALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
¿Pueden los modelos de lenguaje grandes (LLMs) servir directamente como potentes modelos mundiales para agentes basados en modelos? Si bien existen brechas entre el conocimiento previo de los LLMs y la dinámica del entorno especificado, nuestro estudio revela que estas brechas pueden ser superadas al alinear un LLM con su entorno desplegado, y dicha "alineación mundial" puede lograrse eficientemente mediante el aprendizaje de reglas en los LLMs. Dado el rico conocimiento previo de los LLMs, solo unas pocas reglas adicionales son suficientes para alinear las predicciones de los LLMs con la dinámica del entorno especificado. Con este fin, proponemos un enfoque neurosimbólico para aprender estas reglas sin gradientes a través de los LLMs, induciendo, actualizando y podando reglas basadas en comparaciones de trayectorias exploradas por el agente y predicciones del modelo mundial. El modelo mundial resultante está compuesto por el LLM y las reglas aprendidas. Nuestro agente LLM encarnado "WALL-E" se basa en el control predictivo del modelo (MPC). Al optimizar las acciones de anticipación basadas en el modelo mundial preciso, MPC mejora significativamente la eficiencia de exploración y aprendizaje. En comparación con los agentes LLM existentes, el razonamiento de WALL-E solo requiere unas pocas reglas principales en lugar de trayectorias verbosas almacenadas en la entrada del LLM. En desafíos de mundo abierto en Minecraft y ALFWorld, WALL-E logra tasas de éxito más altas que los métodos existentes, con menores costos en tiempo de replanificación y en el número de tokens utilizados para el razonamiento. En Minecraft, WALL-E supera las líneas de base en un 15-30% en la tasa de éxito, mientras que requiere de 8-20 rondas de replanificación menos y solo el 60-80% de los tokens. En ALFWorld, su tasa de éxito aumenta a un nuevo récord del 95% después de solo 6 iteraciones.