경험적 강화 학습
Experiential Reinforcement Learning
February 15, 2026
저자: Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao
cs.AI
초록
강화 학습은 언어 모델(LM)이 환경적 보상 또는 피드백으로부터 학습하는 핵심 접근법으로 자리잡았습니다. 실제로 환경적 피드백은 일반적으로 희소하고 지연됩니다. 이러한 신호로부터 학습하는 것은 어려운 과제인데, 언어 모델이 관찰된 실패가 향후 반복에서 어떻게 행동 변화로 이어져야 하는지를 암묵적으로 추론해야 하기 때문입니다. 본 연구에서는 강화 학습 과정에 명시적인 경험-성찰-통합 루프를 내재화한 훈련 패러다임인 경험적 강화 학습(ERL)을 소개합니다. 주어진 작업에서 모델은 초기 시도를 생성하고, 환경적 피드백을 수신하며, 개선된 두 번째 시도를 안내하는 성찰을 생성합니다. 이 두 번째 시도의 성공은 기본 정책에 강화되어 내재화됩니다. 이 과정은 피드백을 구조화된 행동 수정으로 전환하여 탐색을 개선하고 최적화를 안정화시키며, 추가 추론 비용 없이 배포 시 이득을 보존합니다. 희소 보상 제어 환경과 에이전트 추론 벤치마크 전반에 걸쳐 ERL은 강력한 강화 학습 베이스라인 대비 학습 효율성과 최종 성능을 지속적으로 향상시켰으며, 복잡한 다단계 환경에서는 최대 +81%, 도구 사용 추론 작업에서는 최대 +11%의 성능 향상을 달성했습니다. 이러한 결과는 명시적 자기 성찰을 정책 훈련에 통합하는 것이 피드백을 지속적인 행동 개선으로 전환하는 실용적인 메커니즘을 제공함을 시사합니다.
English
Reinforcement learning has become the central approach for language models (LMs) to learn from environmental reward or feedback. In practice, the environmental feedback is usually sparse and delayed. Learning from such signals is challenging, as LMs must implicitly infer how observed failures should translate into behavioral changes for future iterations. We introduce Experiential Reinforcement Learning (ERL), a training paradigm that embeds an explicit experience-reflection-consolidation loop into the reinforcement learning process. Given a task, the model generates an initial attempt, receives environmental feedback, and produces a reflection that guides a refined second attempt, whose success is reinforced and internalized into the base policy. This process converts feedback into structured behavioral revision, improving exploration and stabilizing optimization while preserving gains at deployment without additional inference cost. Across sparse-reward control environments and agentic reasoning benchmarks, ERL consistently improves learning efficiency and final performance over strong reinforcement learning baselines, achieving gains of up to +81% in complex multi-step environments and up to +11% in tool-using reasoning tasks. These results suggest that integrating explicit self-reflection into policy training provides a practical mechanism for transforming feedback into durable behavioral improvement.