ChatPaper.aiChatPaper

ReflAct: Tomada de Decisão Fundamentada no Mundo em Agentes de LLM por meio de Reflexão sobre o Estado Objetivo

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

May 21, 2025
Autores: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI

Resumo

Os avanços recentes em agentes de LLM têm se baseado amplamente em estruturas de raciocínio como o ReAct, que intercala pensamento e ação em ambientes complexos. No entanto, o ReAct frequentemente produz etapas de raciocínio desconexas ou sem fundamento, levando a um desalinhamento entre o estado real do agente e seu objetivo. Nossa análise revela que isso decorre da incapacidade do ReAct de manter crenças internas consistentes e alinhamento com o objetivo, causando erros cumulativos e alucinações. Para resolver isso, introduzimos o ReflAct, uma nova estrutura que muda o raciocínio de apenas planejar as próximas ações para refletir continuamente sobre o estado do agente em relação ao seu objetivo. Ao fundamentar explicitamente as decisões nos estados e reforçar o alinhamento contínuo com o objetivo, o ReflAct melhora drasticamente a confiabilidade estratégica. Esse design traz ganhos empíricos substanciais: o ReflAct supera o ReAct em média 27,7%, alcançando uma taxa de sucesso de 93,3% no ALFWorld. Notavelmente, o ReflAct até supera o ReAct com módulos de aprimoramento adicionais (por exemplo, Reflexion, WKM), mostrando que fortalecer a estrutura central de raciocínio é fundamental para o desempenho confiável do agente.
English
Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.
PDF62May 26, 2025