ChatPaper.aiChatPaper

WALL-E 2.0 : Alignement mondial par apprentissage neuro-symbolique pour améliorer les agents LLM basés sur des modèles du monde

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

April 22, 2025
Auteurs: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI

Résumé

Pouvons-nous construire des modèles du monde précis à partir de grands modèles de langage (LLMs) ? Comment les modèles du monde peuvent-ils bénéficier aux agents LLM ? L'écart entre les connaissances préalables des LLMs et la dynamique spécifique de l'environnement limite généralement la performance des LLMs en tant que modèles du monde. Pour combler cet écart, nous proposons une "alignement du monde" sans entraînement qui apprend les connaissances symboliques d'un environnement, complémentaires aux LLMs. Ces connaissances symboliques couvrent les règles d'action, les graphes de connaissances et les graphes de scène, qui sont extraits par les LLMs à partir de trajectoires d'exploration et encodés en codes exécutables pour réguler les politiques des agents LLM. Nous proposons en outre un agent sans apprentissage par renforcement (RL) et basé sur un modèle, "WALL-E 2.0", via le cadre de contrôle prédictif par modèle (MPC). Contrairement au MPC classique qui nécessite une optimisation coûteuse en temps réel, nous adoptons un agent LLM comme optimiseur efficace des actions futures en interagissant avec le modèle du monde neurosymbolique. Bien que les heuristiques puissantes de l'agent LLM en fassent un planificateur efficace dans le MPC, la qualité de ses actions planifiées est également garantie par les prédictions précises du modèle du monde aligné. Ensemble, ils améliorent considérablement l'efficacité d'apprentissage dans un nouvel environnement. Sur les défis en monde ouvert dans Mars (similaire à Minecraft) et ALFWorld (environnements intérieurs incarnés), WALL-E 2.0 surpasse significativement les méthodes existantes, par exemple en dépassant les bases de référence dans Mars de 16,1 % à 51,6 % en taux de réussite et d'au moins 61,7 % en score. Dans ALFWorld, il atteint un nouveau record de 98 % de taux de réussite après seulement 4 itérations.
English
Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents? The gap between the prior knowledge of LLMs and the specified environment's dynamics usually bottlenecks LLMs' performance as world models. To bridge the gap, we propose a training-free "world alignment" that learns an environment's symbolic knowledge complementary to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and scene graphs, which are extracted by LLMs from exploration trajectories and encoded into executable codes to regulate LLM agents' policies. We further propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive control (MPC) framework. Unlike classical MPC requiring costly optimization on the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future steps' actions by interacting with the neurosymbolic world model. While the LLM agent's strong heuristics make it an efficient planner in MPC, the quality of its planned actions is also secured by the accurate predictions of the aligned world model. They together considerably improve learning efficiency in a new environment. On open-world challenges in Mars (Minecraft like) and ALFWorld (embodied indoor environments), WALL-E 2.0 significantly outperforms existing methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success rate after only 4 iterations.

Summary

AI-Generated Summary

PDF184April 23, 2025