ChatPaper.aiChatPaper

RLEP: 대규모 언어 모델 추론을 위한 경험 재생 기반 강화 학습

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
저자: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

초록

대규모 언어 모델을 위한 강화 학습(RL)은 에너지 집약적인 작업입니다: 학습 과정이 불안정할 수 있으며, 정책이 사전 학습된 가중치에서 점점 벗어날 가능성이 있습니다. 우리는 RLEP(Reinforcement Learning with Experience rePlay)를 제안합니다. 이는 두 단계로 구성된 프레임워크로, 먼저 검증된 궤적을 수집한 후 이를 후속 학습 과정에서 재생합니다. 각 업데이트 단계에서 정책은 새롭게 생성된 롤아웃과 재생된 성공 사례를 혼합한 미니 배치에 대해 최적화됩니다. RLEP는 고품질 예제를 재생함으로써 모델이 무의미한 탐색에서 벗어나도록 유도하고, 유망한 추론 경로에 학습을 집중시켜 더 빠른 수렴과 더 강력한 최종 성능을 제공합니다. Qwen2.5-Math-7B 기본 모델에서 RLEP는 상당히 적은 업데이트로 기준 최고 정확도에 도달하며, 이를 넘어서는 성과를 보입니다. AIME-2024에서 정확도는 38.2%에서 39.9%로, AIME-2025에서는 19.8%에서 22.3%로, AMC-2023에서는 77.0%에서 82.2%로 향상되었습니다. 재현성과 추가 연구를 위해 우리의 코드, 데이터셋, 체크포인트는 https://github.com/Kwai-Klear/RLEP에서 공개되어 있습니다.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025