WALL-E 2.0: L'Allineamento del Mondo tramite Apprendimento NeuroSimbolico Migliora gli Agenti LLM Basati su Modelli del Mondo
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
April 22, 2025
Autori: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Abstract
Possiamo costruire modelli del mondo accurati a partire da modelli linguistici di grandi dimensioni (LLM)? In che modo i modelli del mondo possono beneficiare gli agenti basati su LLM? Il divario tra la conoscenza a priori degli LLM e le dinamiche di un ambiente specifico rappresenta solitamente un collo di bottiglia per le prestazioni degli LLM come modelli del mondo. Per colmare questo divario, proponiamo un approccio "allineamento del mondo" senza addestramento che apprende la conoscenza simbolica di un ambiente complementare agli LLM. La conoscenza simbolica copre regole di azione, grafi di conoscenza e grafi di scena, che vengono estratti dagli LLM dalle traiettorie di esplorazione e codificati in codice eseguibile per regolare le politiche degli agenti LLM. Proponiamo inoltre un agente basato su modelli, "WALL-E 2.0", privo di apprendimento per rinforzo (RL), attraverso il framework di controllo predittivo basato su modello (MPC). A differenza del classico MPC che richiede un'ottimizzazione costosa in tempo reale, adottiamo un agente LLM come ottimizzatore efficiente delle azioni future, interagendo con il modello del mondo neurosimbolico. Mentre le forti euristiche dell'agente LLM lo rendono un pianificatore efficiente in MPC, la qualità delle azioni pianificate è garantita anche dalle previsioni accurate del modello del mondo allineato. Insieme, migliorano notevolmente l'efficienza dell'apprendimento in un nuovo ambiente. Su sfide in mondi aperti come Mars (simile a Minecraft) e ALFWorld (ambienti indoor incarnati), WALL-E 2.0 supera significativamente i metodi esistenti, ad esempio superando i baseline in Mars del 16,1%-51,6% nel tasso di successo e di almeno il 61,7% nel punteggio. In ALFWorld, raggiunge un nuovo record del 98% di tasso di successo dopo solo 4 iterazioni.
English
Can we build accurate world models out of large language models (LLMs)? How
can world models benefit LLM agents? The gap between the prior knowledge of
LLMs and the specified environment's dynamics usually bottlenecks LLMs'
performance as world models. To bridge the gap, we propose a training-free
"world alignment" that learns an environment's symbolic knowledge complementary
to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and
scene graphs, which are extracted by LLMs from exploration trajectories and
encoded into executable codes to regulate LLM agents' policies. We further
propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive
control (MPC) framework. Unlike classical MPC requiring costly optimization on
the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future
steps' actions by interacting with the neurosymbolic world model. While the LLM
agent's strong heuristics make it an efficient planner in MPC, the quality of
its planned actions is also secured by the accurate predictions of the aligned
world model. They together considerably improve learning efficiency in a new
environment. On open-world challenges in Mars (Minecraft like) and ALFWorld
(embodied indoor environments), WALL-E 2.0 significantly outperforms existing
methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and
by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success
rate after only 4 iterations.Summary
AI-Generated Summary