ChatPaper.aiChatPaper

ReflAct: Weltverankerte Entscheidungsfindung in LLM-Agenten durch Zielzustandsreflexion

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

May 21, 2025
Autoren: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI

Zusammenfassung

Jüngste Fortschritte bei LLM-Agenten basieren weitgehend auf Reasoning-Grundlagen wie ReAct, die Denken und Handeln in komplexen Umgebungen verschränken. Allerdings produziert ReAct oft unbegründete oder inkohärente Denkschritte, was zu einer Fehlausrichtung zwischen dem tatsächlichen Zustand des Agenten und seinem Ziel führt. Unsere Analyse zeigt, dass dies auf die Unfähigkeit von ReAct zurückzuführen ist, konsistente interne Überzeugungen und Zielausrichtung aufrechtzuerhalten, was zu sich verstärkenden Fehlern und Halluzinationen führt. Um dies zu beheben, führen wir ReflAct ein, eine neuartige Grundlage, die das Reasoning von der bloßen Planung der nächsten Aktionen hin zu einer kontinuierlichen Reflexion des Zustands des Agenten in Bezug auf sein Ziel verschiebt. Durch die explizite Verankerung von Entscheidungen in Zuständen und die Durchsetzung einer fortlaufenden Zielausrichtung verbessert ReflAct die strategische Zuverlässigkeit erheblich. Dieses Design erzielt erhebliche empirische Fortschritte: ReflAct übertrifft ReAct im Durchschnitt um 27,7 % und erreicht eine Erfolgsquote von 93,3 % in ALFWorld. Bemerkenswerterweise übertrifft ReflAct sogar ReAct mit zusätzlichen Erweiterungsmodulen (z. B. Reflexion, WKM), was zeigt, dass die Stärkung der Kern-Reasoning-Grundlage der Schlüssel zu einer zuverlässigen Agentenleistung ist.
English
Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.

Summary

AI-Generated Summary

PDF52May 26, 2025