ReflAct : Prise de décision ancrée dans le monde réel pour les agents LLM via la réflexion sur l'état cible
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
Auteurs: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
Résumé
Les récents progrès dans les agents LLM se sont largement appuyés sur des architectures de raisonnement comme ReAct, qui entrelacent pensée et action dans des environnements complexes. Cependant, ReAct produit souvent des étapes de raisonnement non fondées ou incohérentes, entraînant un désalignement entre l'état réel de l'agent et son objectif. Notre analyse révèle que cela découle de l'incapacité de ReAct à maintenir des croyances internes cohérentes et un alignement sur les objectifs, provoquant des erreurs cumulatives et des hallucinations. Pour remédier à cela, nous introduisons ReflAct, une nouvelle architecture qui déplace le raisonnement de la simple planification des prochaines actions vers une réflexion continue sur l'état de l'agent par rapport à son objectif. En ancrant explicitement les décisions dans les états et en imposant un alignement permanent sur les objectifs, ReflAct améliore considérablement la fiabilité stratégique. Cette conception apporte des gains empiriques substantiels : ReflAct surpasse ReAct de 27,7 % en moyenne, atteignant un taux de réussite de 93,3 % dans ALFWorld. Notamment, ReflAct surpasse même ReAct avec des modules d'amélioration supplémentaires (par exemple, Reflexion, WKM), montrant que renforcer le cœur de l'architecture de raisonnement est essentiel pour une performance fiable des agents.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.Summary
AI-Generated Summary