ReflAct: Wereldgebaseerd besluitvorming in LLM-agenten via doeltoestandsreflectie

Samenvatting

Recente vooruitgang in LLM-agents heeft grotendeels voortgebouwd op redeneerstructuren zoals ReAct, die gedachten en acties in complexe omgevingen verweven. Echter, ReAct produceert vaak ongegronde of onsamenhangende redeneerstappen, wat leidt tot een mismatch tussen de feitelijke staat van de agent en het doel. Onze analyse toont aan dat dit voortkomt uit het onvermogen van ReAct om consistente interne overtuigingen en doelafstemming te behouden, wat resulteert in opeenstapelende fouten en hallucinaties. Om dit aan te pakken, introduceren we ReflAct, een nieuwe redeneerstructuur die de focus verschuift van louter het plannen van volgende acties naar het continu reflecteren op de staat van de agent ten opzichte van zijn doel. Door beslissingen expliciet te verankeren in staten en voortdurende doelafstemming af te dwingen, verbetert ReflAct de strategische betrouwbaarheid aanzienlijk. Dit ontwerp levert aanzienlijke empirische verbeteringen op: ReflAct overtreft ReAct gemiddeld met 27,7% en behaalt een slagingspercentage van 93,3% in ALFWorld. Opmerkelijk is dat ReflAct zelfs beter presteert dan ReAct met toegevoegde verbeteringsmodules (bijv. Reflexion, WKM), wat aantoont dat het versterken van de kernredeneerstructuur essentieel is voor betrouwbare agentprestaties.

English

Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.

ReflAct: Wereldgebaseerd besluitvorming in LLM-agenten via doeltoestandsreflectie

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

Samenvatting

Support