WALL-E: Alinhamento Mundial por Aprendizado de Regras Melhora Agentes LLM Baseados em Modelo Mundial
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
October 9, 2024
Autores: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Resumo
Podem os grandes modelos de linguagem (LLMs) servir diretamente como poderosos modelos mundiais para agentes baseados em modelos? Embora existam lacunas entre o conhecimento prévio dos LLMs e a dinâmica do ambiente especificado, nosso estudo revela que essas lacunas podem ser superadas alinhando um LLM com seu ambiente implantado e esse "alinhamento mundial" pode ser alcançado de forma eficiente por meio da aprendizagem de regras nos LLMs. Dado o rico conhecimento prévio dos LLMs, apenas algumas regras adicionais são suficientes para alinhar as previsões do LLM com a dinâmica do ambiente especificado. Para isso, propomos uma abordagem neuro-simbólica para aprender essas regras sem gradientes por meio dos LLMs, induzindo, atualizando e podando regras com base em comparações entre trajetórias exploradas pelo agente e previsões do modelo mundial. O modelo mundial resultante é composto pelo LLM e pelas regras aprendidas. Nosso agente LLM incorporado "WALL-E" é construído com base no controle preditivo do modelo (MPC). Ao otimizar ações de antecipação com base no modelo mundial preciso, o MPC melhora significativamente a eficiência da exploração e da aprendizagem. Comparado aos agentes LLM existentes, o raciocínio do WALL-E requer apenas algumas regras principais em vez de trajetórias em buffer verbosas incluídas na entrada do LLM. Em desafios de mundo aberto no Minecraft e ALFWorld, o WALL-E alcança taxas de sucesso mais altas do que os métodos existentes, com menores custos de tempo de replanejamento e número de tokens usados para o raciocínio. No Minecraft, o WALL-E supera as linhas de base em 15-30% na taxa de sucesso, enquanto custa de 8 a 20 rodadas de replanejamento a menos e apenas 60-80% dos tokens. No ALFWorld, sua taxa de sucesso atinge um novo recorde de 95% após apenas 6 iterações.
English
Can large language models (LLMs) directly serve as powerful world models for
model-based agents? While the gaps between the prior knowledge of LLMs and the
specified environment's dynamics do exist, our study reveals that the gaps can
be bridged by aligning an LLM with its deployed environment and such "world
alignment" can be efficiently achieved by rule learning on LLMs. Given the rich
prior knowledge of LLMs, only a few additional rules suffice to align LLM
predictions with the specified environment dynamics. To this end, we propose a
neurosymbolic approach to learn these rules gradient-free through LLMs, by
inducing, updating, and pruning rules based on comparisons of agent-explored
trajectories and world model predictions. The resulting world model is composed
of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon
model-predictive control (MPC). By optimizing look-ahead actions based on the
precise world model, MPC significantly improves exploration and learning
efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a
few principal rules rather than verbose buffered trajectories being included in
the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E
achieves higher success rates than existing methods, with lower costs on
replanning time and the number of tokens used for reasoning. In Minecraft,
WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer
replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate
surges to a new record high of 95% only after 6 iterations.Summary
AI-Generated Summary