WALL-E 2.0: Weltausrichtung durch neurosymbolisches Lernen verbessert weltmodellbasierte LLM-Agenten
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
April 22, 2025
Autoren: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Zusammenfassung
Können wir präzise Weltmodelle aus großen Sprachmodellen (LLMs) erstellen? Wie können Weltmodelle LLM-Agenten zugutekommen? Die Diskrepanz zwischen dem Vorwissen von LLMs und der Dynamik einer spezifizierten Umgebung begrenzt üblicherweise die Leistung von LLMs als Weltmodelle. Um diese Lücke zu schließen, schlagen wir ein trainingsfreies „Welt-Alignment“ vor, das symbolisches Wissen über die Umgebung erlernt, das die LLMs ergänzt. Das symbolische Wissen umfasst Aktionsregeln, Wissensgraphen und Szenengraphen, die von den LLMs aus Erkundungstrajektorien extrahiert und in ausführbaren Code kodiert werden, um die Strategien der LLM-Agenten zu regulieren. Weiterhin schlagen wir einen RL-freien, modellbasierten Agenten „WALL-E 2.0“ vor, der auf dem Modellprädiktiven Regelungs (MPC)-Framework basiert. Im Gegensatz zum klassischen MPC, das eine kostspielige Optimierung in Echtzeit erfordert, verwenden wir einen LLM-Agenten als effizienten Vorausschau-Optimierer für zukünftige Aktionen, indem er mit dem neurosymbolischen Weltmodell interagiert. Während die starken Heuristiken des LLM-Agenten ihn zu einem effizienten Planer im MPC machen, wird die Qualität seiner geplanten Aktionen auch durch die präzisen Vorhersagen des alignierten Weltmodells gesichert. Zusammen verbessern sie die Lerneffizienz in einer neuen Umgebung erheblich. Bei Open-World-Herausforderungen in Mars (ähnlich wie Minecraft) und ALFWorld (verkörperte Indoor-Umgebungen) übertrifft WALL-E 2.0 bestehende Methoden deutlich, z.B. übertrifft es die Baselines in Mars um 16,1%-51,6% bei der Erfolgsrate und um mindestens 61,7% beim Score. In ALFWorld erreicht es einen neuen Rekord von 98% Erfolgsrate nach nur 4 Iterationen.
English
Can we build accurate world models out of large language models (LLMs)? How
can world models benefit LLM agents? The gap between the prior knowledge of
LLMs and the specified environment's dynamics usually bottlenecks LLMs'
performance as world models. To bridge the gap, we propose a training-free
"world alignment" that learns an environment's symbolic knowledge complementary
to LLMs. The symbolic knowledge covers action rules, knowledge graphs, and
scene graphs, which are extracted by LLMs from exploration trajectories and
encoded into executable codes to regulate LLM agents' policies. We further
propose an RL-free, model-based agent "WALL-E 2.0" through the model-predictive
control (MPC) framework. Unlike classical MPC requiring costly optimization on
the fly, we adopt an LLM agent as an efficient look-ahead optimizer of future
steps' actions by interacting with the neurosymbolic world model. While the LLM
agent's strong heuristics make it an efficient planner in MPC, the quality of
its planned actions is also secured by the accurate predictions of the aligned
world model. They together considerably improve learning efficiency in a new
environment. On open-world challenges in Mars (Minecraft like) and ALFWorld
(embodied indoor environments), WALL-E 2.0 significantly outperforms existing
methods, e.g., surpassing baselines in Mars by 16.1%-51.6% of success rate and
by at least 61.7% in score. In ALFWorld, it achieves a new record 98% success
rate after only 4 iterations.Summary
AI-Generated Summary