ReflAct: Weltverankerte Entscheidungsfindung in LLM-Agenten durch Zielzustandsreflexion
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
Autoren: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
Zusammenfassung
Jüngste Fortschritte bei LLM-Agenten basieren weitgehend auf Reasoning-Grundlagen wie ReAct, die Denken und Handeln in komplexen Umgebungen verschränken. Allerdings produziert ReAct oft unbegründete oder inkohärente Denkschritte, was zu einer Fehlausrichtung zwischen dem tatsächlichen Zustand des Agenten und seinem Ziel führt. Unsere Analyse zeigt, dass dies auf die Unfähigkeit von ReAct zurückzuführen ist, konsistente interne Überzeugungen und Zielausrichtung aufrechtzuerhalten, was zu sich verstärkenden Fehlern und Halluzinationen führt. Um dies zu beheben, führen wir ReflAct ein, eine neuartige Grundlage, die das Reasoning von der bloßen Planung der nächsten Aktionen hin zu einer kontinuierlichen Reflexion des Zustands des Agenten in Bezug auf sein Ziel verschiebt. Durch die explizite Verankerung von Entscheidungen in Zuständen und die Durchsetzung einer fortlaufenden Zielausrichtung verbessert ReflAct die strategische Zuverlässigkeit erheblich. Dieses Design erzielt erhebliche empirische Fortschritte: ReflAct übertrifft ReAct im Durchschnitt um 27,7 % und erreicht eine Erfolgsquote von 93,3 % in ALFWorld. Bemerkenswerterweise übertrifft ReflAct sogar ReAct mit zusätzlichen Erweiterungsmodulen (z. B. Reflexion, WKM), was zeigt, dass die Stärkung der Kern-Reasoning-Grundlage der Schlüssel zu einer zuverlässigen Agentenleistung ist.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.Summary
AI-Generated Summary