ChatPaper.aiChatPaper

WALL-E 2.0: Alinhamento Mundial por Aprendizado NeuroSimbólico Aprimora Agentes de LLM Baseados em Modelos Mundiais

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

April 22, 2025
Autores: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI

Resumo

Podemos construir modelos de mundo precisos a partir de grandes modelos de linguagem (LLMs)? Como os modelos de mundo podem beneficiar agentes baseados em LLMs? A lacuna entre o conhecimento prévio dos LLMs e a dinâmica de um ambiente específico geralmente limita o desempenho dos LLMs como modelos de mundo. Para preencher essa lacuna, propomos um método de "alinhamento de mundo" sem treinamento, que aprende o conhecimento simbólico de um ambiente complementar aos LLMs. Esse conhecimento simbólico abrange regras de ação, grafos de conhecimento e grafos de cena, que são extraídos pelos LLMs a partir de trajetórias de exploração e codificados em códigos executáveis para regular as políticas dos agentes baseados em LLMs. Além disso, propomos um agente baseado em modelo, "WALL-E 2.0", sem uso de aprendizado por reforço (RL), utilizando o framework de controle preditivo por modelo (MPC). Diferente do MPC clássico, que requer otimização custosa em tempo real, adotamos um agente LLM como um otimizador eficiente de ações futuras, interagindo com o modelo de mundo neurosimbólico. Enquanto as heurísticas robustas do agente LLM o tornam um planejador eficiente no MPC, a qualidade de suas ações planejadas também é garantida pelas previsões precisas do modelo de mundo alinhado. Juntos, eles melhoram consideravelmente a eficiência de aprendizado em um novo ambiente. Em desafios de mundo aberto em Mars (semelhante ao Minecraft) e ALFWorld (ambientes internos corporificados), o WALL-E 2.0 supera significativamente os métodos existentes, por exemplo, ultrapassando as linhas de base em Mars em 16,1%-51,6% na taxa de sucesso e em pelo menos 61,7% na pontuação. No ALFWorld, ele alcança um novo recorde de 98% de taxa de sucesso após apenas 4 iterações.
English
Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents? The gap between the prior knowledge of LLMs and the specified environment's dynamics usually bottlenecks LLMs' performance as world models. To bridge the gap, we propose a training-free "world alignment" that learns an environment's symbolic knowledge complementary to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and scene graphs, which are extracted by LLMs from exploration trajectories and encoded into executable codes to regulate LLM agents' policies. We further propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive control (MPC) framework. Unlike classical MPC requiring costly optimization on the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future steps' actions by interacting with the neurosymbolic world model. While the LLM agent's strong heuristics make it an efficient planner in MPC, the quality of its planned actions is also secured by the accurate predictions of the aligned world model. They together considerably improve learning efficiency in a new environment. On open-world challenges in Mars (Minecraft like) and ALFWorld (embodied indoor environments), WALL-E 2.0 significantly outperforms existing methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success rate after only 4 iterations.

Summary

AI-Generated Summary

PDF184April 23, 2025