WALL-E 2.0: Alineación Mundial mediante Aprendizaje NeuroSimbólico mejora los Agentes de Modelos del Mundo basados en LLM
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
April 22, 2025
Autores: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Resumen
¿Podemos construir modelos del mundo precisos a partir de grandes modelos de lenguaje (LLMs)? ¿Cómo pueden los modelos del mundo beneficiar a los agentes basados en LLMs? La brecha entre el conocimiento previo de los LLMs y la dinámica del entorno especificado suele limitar el rendimiento de los LLMs como modelos del mundo. Para cerrar esta brecha, proponemos una "alineación del mundo" sin entrenamiento que aprende conocimiento simbólico del entorno complementario a los LLMs. Este conocimiento simbólico abarca reglas de acción, grafos de conocimiento y grafos de escena, que son extraídos por los LLMs a partir de trayectorias de exploración y codificados en códigos ejecutables para regular las políticas de los agentes basados en LLMs. Además, proponemos un agente sin RL basado en modelos, "WALL-E 2.0", a través del marco de control predictivo de modelos (MPC). A diferencia del MPC clásico, que requiere una optimización costosa en tiempo real, adoptamos un agente LLM como un optimizador eficiente de acciones futuras mediante la interacción con el modelo del mundo neurosimbólico. Mientras que las fuertes heurísticas del agente LLM lo convierten en un planificador eficiente en MPC, la calidad de sus acciones planificadas también está garantizada por las predicciones precisas del modelo del mundo alineado. Juntos, mejoran considerablemente la eficiencia del aprendizaje en un nuevo entorno. En desafíos de mundo abierto como Mars (similar a Minecraft) y ALFWorld (entornos interiores corporizados), WALL-E 2.0 supera significativamente a los métodos existentes, por ejemplo, superando a los baselines en Mars con un 16.1%-51.6% de tasa de éxito y al menos un 61.7% en puntuación. En ALFWorld, alcanza un nuevo récord del 98% de tasa de éxito después de solo 4 iteraciones.
English
Can we build accurate world models out of large language models (LLMs)? How
can world models benefit LLM agents? The gap between the prior knowledge of
LLMs and the specified environment's dynamics usually bottlenecks LLMs'
performance as world models. To bridge the gap, we propose a training-free
"world alignment" that learns an environment's symbolic knowledge complementary
to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and
scene graphs, which are extracted by LLMs from exploration trajectories and
encoded into executable codes to regulate LLM agents' policies. We further
propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive
control (MPC) framework. Unlike classical MPC requiring costly optimization on
the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future
steps' actions by interacting with the neurosymbolic world model. While the LLM
agent's strong heuristics make it an efficient planner in MPC, the quality of
its planned actions is also secured by the accurate predictions of the aligned
world model. They together considerably improve learning efficiency in a new
environment. On open-world challenges in Mars (Minecraft like) and ALFWorld
(embodied indoor environments), WALL-E 2.0 significantly outperforms existing
methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and
by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success
rate after only 4 iterations.Summary
AI-Generated Summary