ReflAct: Wereldgebaseerd besluitvorming in LLM-agenten via doeltoestandsreflectie
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
Auteurs: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
Samenvatting
Recente vooruitgang in LLM-agents heeft grotendeels voortgebouwd op redeneerstructuren zoals ReAct, die gedachten en acties in complexe omgevingen verweven. Echter, ReAct produceert vaak ongegronde of onsamenhangende redeneerstappen, wat leidt tot een mismatch tussen de feitelijke staat van de agent en het doel. Onze analyse toont aan dat dit voortkomt uit het onvermogen van ReAct om consistente interne overtuigingen en doelafstemming te behouden, wat resulteert in opeenstapelende fouten en hallucinaties. Om dit aan te pakken, introduceren we ReflAct, een nieuwe redeneerstructuur die de focus verschuift van louter het plannen van volgende acties naar het continu reflecteren op de staat van de agent ten opzichte van zijn doel. Door beslissingen expliciet te verankeren in staten en voortdurende doelafstemming af te dwingen, verbetert ReflAct de strategische betrouwbaarheid aanzienlijk. Dit ontwerp levert aanzienlijke empirische verbeteringen op: ReflAct overtreft ReAct gemiddeld met 27,7% en behaalt een slagingspercentage van 93,3% in ALFWorld. Opmerkelijk is dat ReflAct zelfs beter presteert dan ReAct met toegevoegde verbeteringsmodules (bijv. Reflexion, WKM), wat aantoont dat het versterken van de kernredeneerstructuur essentieel is voor betrouwbare agentprestaties.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.