ReflAct: 목표 상태 반영을 통한 LLM 에이전트의 세계 기반 의사결정
ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
May 21, 2025
저자: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung
cs.AI
초록
최근 LLM 에이전트의 발전은 ReAct와 같은 추론 백본을 기반으로 이루어졌으며, 이는 복잡한 환경에서 사고와 행동을 교차적으로 수행합니다. 그러나 ReAct는 종종 근거가 없거나 일관성 없는 추론 단계를 생성하여 에이전트의 실제 상태와 목표 간의 불일치를 초래합니다. 우리의 분석에 따르면, 이는 ReAct가 일관된 내부 신념과 목표 정렬을 유지하지 못해 오류와 환각이 누적되기 때문입니다. 이를 해결하기 위해, 우리는 ReflAct라는 새로운 백본을 소개합니다. ReflAct는 단순히 다음 행동을 계획하는 것에서 벗어나 에이전트의 상태를 목표와 지속적으로 비교하며 반영하는 방식으로 추론을 전환합니다. 명시적으로 상태에 기반한 결정을 내리고 지속적인 목표 정렬을 강제함으로써, ReflAct는 전략적 신뢰성을 크게 향상시킵니다. 이 설계는 실질적인 실험적 성과를 제공합니다: ReflAct는 ReAct를 평균 27.7% 능가하며, ALFWorld에서 93.3%의 성공률을 달성합니다. 특히, ReflAct는 추가 개선 모듈(예: Reflexion, WKM)이 적용된 ReAct보다도 우수한 성능을 보여주며, 핵심 추론 백본을 강화하는 것이 에이전트 성능의 신뢰성을 높이는 데 핵심임을 입증합니다.
English
Recent advances in LLM agents have largely built on reasoning backbones like
ReAct, which interleave thought and action in complex environments. However,
ReAct often produces ungrounded or incoherent reasoning steps, leading to
misalignment between the agent's actual state and goal. Our analysis finds that
this stems from ReAct's inability to maintain consistent internal beliefs and
goal alignment, causing compounding errors and hallucinations. To address this,
we introduce ReflAct, a novel backbone that shifts reasoning from merely
planning next actions to continuously reflecting on the agent's state relative
to its goal. By explicitly grounding decisions in states and enforcing ongoing
goal alignment, ReflAct dramatically improves strategic reliability. This
design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7%
on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even
outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM),
showing that strengthening the core reasoning backbone is key to reliable agent
performance.Summary
AI-Generated Summary