ReflAct: Toma de Decisiones Fundamentada en el Mundo para Agentes de LLM mediante Reflexión sobre el Estado Objetivo
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
Autores: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
Resumen
Los avances recientes en agentes de LLM se han basado en gran medida en marcos de razonamiento como ReAct, que intercalan pensamiento y acción en entornos complejos. Sin embargo, ReAct a menudo produce pasos de razonamiento inconsistentes o desvinculados, lo que genera una desalineación entre el estado real del agente y su objetivo. Nuestro análisis revela que esto se debe a la incapacidad de ReAct para mantener creencias internas consistentes y una alineación con los objetivos, lo que provoca errores acumulativos y alucinaciones. Para abordar este problema, presentamos ReflAct, un nuevo marco que traslada el razonamiento de simplemente planificar las siguientes acciones a reflexionar continuamente sobre el estado del agente en relación con su objetivo. Al fundamentar explícitamente las decisiones en los estados y reforzar la alineación continua con los objetivos, ReflAct mejora drásticamente la confiabilidad estratégica. Este diseño ofrece ganancias empíricas significativas: ReflAct supera a ReAct en un 27.7% en promedio, alcanzando una tasa de éxito del 93.3% en ALFWorld. Es notable que ReflAct incluso supera a ReAct con módulos de mejora adicionales (por ejemplo, Reflexion, WKM), demostrando que fortalecer el núcleo del razonamiento es clave para un rendimiento confiable del agente.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.Summary
AI-Generated Summary