ChatPaper.aiChatPaper

더 이상 낡은 피드백은 없다: 개방형 세계 에이전트 학습을 위한 공진화 비평가

No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning

January 11, 2026
저자: Zhicong Li, Lingjie Jiang, Yulan Hu, Xingchen Zeng, Yixia Li, Xiangwen Zhang, Guanhua Chen, Zheng Pan, Xin Li, Yong Liu
cs.AI

초록

비판-안내 강화 학습(RL)은 자연어 피드백으로 희소한 결과 보상을 보강하여 LLM 에이전트를 훈련하는 강력한 패러다임으로 부상했습니다. 그러나 현재 방법들은 정적 또는 오프라인 비판 모델에 의존하는 경우가 많아, 정책이 진화함에 따라 적응하지 못합니다. 온-정책 RL에서 에이전트의 오류 패턴은 시간이 지남에 따라 변하며, 이로 인해 고정된 비판 모델은 점차 낡아져 유용성이 감소하는 피드백을 제공하게 됩니다. 이를 해결하기 위해 우리는 동기화된 공진화 루프를 통해 정책과 비판 모델을 공동 최적화하는 프레임워크인 ECHO(사후 안내 최적화를 위한 진화하는 비판 모델)를 소개합니다. ECHO는 비판 모델이 초기 궤적에 대해 여러 진단을 생성한 다음, 그룹 구조화된 어드밴티지 추정을 가능하게 하는 정책 개선이 뒤따르는 계단식 롤아웃 메커니즘을 활용합니다. 우리는 포화 인식 이득 형성 목적 함수를 통해 학습 정체 문제에 대응하며, 이는 높은 성능을 보이는 궤적에서 점진적인 개선을 유도한 비판 모델에 보상을 제공합니다. 이중 트랙 GRPO 업데이트를 사용함으로써 ECHO는 비판 모델의 피드백이 진화하는 정책과 동기화된 상태를 유지하도록 보장합니다. 실험 결과, ECHO가 개방형 환경에서 더 안정적인 훈련과 더 높은 장기 과제 성공률을 달성함을 보여줍니다.
English
Critique-guided reinforcement learning (RL) has emerged as a powerful paradigm for training LLM agents by augmenting sparse outcome rewards with natural-language feedback. However, current methods often rely on static or offline critic models, which fail to adapt as the policy evolves. In on-policy RL, the agent's error patterns shift over time, causing stationary critics to become stale and providing feedback of diminishing utility. To address this, we introduce ECHO (Evolving Critic for Hindsight-Guided Optimization)}, a framework that jointly optimizes the policy and critic through a synchronized co-evolutionary loop. ECHO utilizes a cascaded rollout mechanism where the critic generates multiple diagnoses for an initial trajectory, followed by policy refinement to enable group-structured advantage estimation. We address the challenge of learning plateaus via a saturation-aware gain shaping objective, which rewards the critic for inducing incremental improvements in high-performing trajectories. By employing dual-track GRPO updates, ECHO ensures the critic's feedback stays synchronized with the evolving policy. Experimental results show that ECHO yields more stable training and higher long-horizon task success across open-world environments.
PDF11January 16, 2026