장기적 목표를 가진 LLM 에이전트를 위한 사후 평가 기반 신용 할당
Hindsight Credit Assignment for Long-Horizon LLM Agents
March 7, 2026
저자: Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li
cs.AI
초록
대규모 언어 모델(LLM) 에이전트는 희소한 보상으로 인해 장기적이고 다단계 작업에서 중요한 크레딧 할당 문제에 직면하는 경우가 많습니다. 기존의 가치-무관(value-free) 방법론들, 예를 들어 GRPO(Group Relative Policy Optimization)는 두 가지 근본적인 한계점을 가지고 있습니다: 부정확한 단계별 Q-값 추정과 중간 상태에 대한 잘못 정렬된 가치 기준선입니다. 이러한 한계를 해결하기 위해, 우리는 후견적(hindsight) 크레딧 할당을 LLM 에이전트에 통합한 최초의 프레임워크인 HCAPO를 소개합니다. HCAPO는 LLM 자체를 사후 비평가(post-hoc critic)로 활용하여 후견적 추론을 통해 단계별 Q-값을 정제합니다. 더 나아가, HCAPO의 다중 규모 이점(multi-scale advantage) 메커니즘은 중요한 결정 상태에서 부정확한 가치 기준선을 효과적으로 보완합니다. WebShop과 ALFWorld를 포함한 세 가지 도전적인 벤치마크에서의 평가 결과, HCAPO가 최신 RL(강화학습) 방법론들을 지속적으로 능가하는 것으로 나타났습니다. 특히, Qwen2.5-7B-Instruct 모델을 사용했을 때 HCAPO는 WebShop에서 GRPO 대비 7.7%, ALFWorld에서 13.8%의 성공률 향상을 달성했습니다. 이러한 결과는 HCAPO가 탐색 효율성을 크게 향상시키고, 간결한 의사 결정을 촉진하며, 복잡한 장기적 작업에서 확장성을 보장함을 시사합니다.
English
Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.