ReflAct: Toma de Decisiones Fundamentada en el Mundo para Agentes de LLM mediante Reflexión sobre el Estado Objetivo

Resumen

Los avances recientes en agentes de LLM se han basado en gran medida en marcos de razonamiento como ReAct, que intercalan pensamiento y acción en entornos complejos. Sin embargo, ReAct a menudo produce pasos de razonamiento inconsistentes o desvinculados, lo que genera una desalineación entre el estado real del agente y su objetivo. Nuestro análisis revela que esto se debe a la incapacidad de ReAct para mantener creencias internas consistentes y una alineación con los objetivos, lo que provoca errores acumulativos y alucinaciones. Para abordar este problema, presentamos ReflAct, un nuevo marco que traslada el razonamiento de simplemente planificar las siguientes acciones a reflexionar continuamente sobre el estado del agente en relación con su objetivo. Al fundamentar explícitamente las decisiones en los estados y reforzar la alineación continua con los objetivos, ReflAct mejora drásticamente la confiabilidad estratégica. Este diseño ofrece ganancias empíricas significativas: ReflAct supera a ReAct en un 27.7% en promedio, alcanzando una tasa de éxito del 93.3% en ALFWorld. Es notable que ReflAct incluso supera a ReAct con módulos de mejora adicionales (por ejemplo, Reflexion, WKM), demostrando que fortalecer el núcleo del razonamiento es clave para un rendimiento confiable del agente.

English

Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.

ReflAct: Toma de Decisiones Fundamentada en el Mundo para Agentes de LLM mediante Reflexión sobre el Estado Objetivo

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

Resumen

Support