WALL-E: Weltweite Ausrichtung durch Regel-Lernen verbessert weltmodellbasierte LLM-AgentenWALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
Können große Sprachmodelle (LLMs) direkt als leistungsstarke Weltmodelle für agentenbasierte Modelle dienen? Obwohl Unterschiede zwischen dem vorhandenen Wissen von LLMs und der Dynamik der spezifizierten Umgebung bestehen, zeigt unsere Studie, dass diese Unterschiede durch die Ausrichtung eines LLM auf seine implementierte Umgebung überbrückt werden können. Eine solche "Weltausrichtung" kann effizient durch das Erlernen von Regeln auf LLMs erreicht werden. Angesichts des umfangreichen vorhandenen Wissens von LLMs genügen nur wenige zusätzliche Regeln, um die Vorhersagen des LLM mit der Dynamik der spezifizierten Umgebung in Einklang zu bringen. Zu diesem Zweck schlagen wir einen neurosymbolischen Ansatz vor, um diese Regeln gradientenfrei durch LLMs zu erlernen, indem Regeln auf der Grundlage von Vergleichen von Agenten-erkundeten Trajektorien und Weltmodellvorhersagen induziert, aktualisiert und beschnitten werden. Das resultierende Weltmodell besteht aus dem LLM und den erlernten Regeln. Unser verkörperter LLM-Agent "WALL-E" basiert auf modellprädiktiver Regelung (MPC). Durch Optimierung von vorausschauenden Aktionen auf der Grundlage des präzisen Weltmodells verbessert MPC die Erkundung und Lerneffizienz erheblich. Im Vergleich zu bestehenden LLM-Agenten erfordert das Denken von WALL-E nur wenige grundlegende Regeln anstelle von ausführlichen gepufferten Trajektorien, die in die LLM-Eingabe einbezogen werden. Bei offenen Herausforderungen in Minecraft und ALFWorld erzielt WALL-E höhere Erfolgsraten als bestehende Methoden, bei geringeren Kosten für die Neuplanungszeit und die Anzahl der für das Denken verwendeten Token. In Minecraft übertrifft WALL-E die Baselines um 15-30% in der Erfolgsrate und benötigt 8-20 weniger Neuplanungsrunden sowie nur 60-80% der Tokens. In ALFWorld steigt seine Erfolgsrate nach nur 6 Iterationen auf einen neuen Rekordwert von 95%.