ChatPaper.aiChatPaper

RLEP: Aprendizado por Reforço com Replay de Experiência para Raciocínio em Modelos de Linguagem de Grande Escala

RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

July 10, 2025
Autores: Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou
cs.AI

Resumo

O aprendizado por reforço (RL) para modelos de linguagem de grande escala é uma tarefa que consome muita energia: o treinamento pode ser instável, e a política pode gradualmente se afastar de seus pesos pré-treinados. Apresentamos o RLEP — Aprendizado por Reforço com Replay de Experiência —, um framework de duas fases que primeiro coleta trajetórias verificadas e depois as reproduz durante o treinamento subsequente. A cada etapa de atualização, a política é otimizada em mini-lotes que combinam rollouts recém-gerados com esses sucessos reproduzidos. Ao reproduzir exemplos de alta qualidade, o RLEP direciona o modelo para longe de explorações infrutíferas, concentrando o aprendizado em caminhos de raciocínio promissores, e proporciona tanto uma convergência mais rápida quanto um desempenho final mais robusto. No modelo base Qwen2.5-Math-7B, o RLEP atinge a precisão máxima de referência com substancialmente menos atualizações e, por fim, a supera, melhorando a precisão no AIME-2024 de 38,2% para 39,9%, no AIME-2025 de 19,8% para 22,3%, e no AMC-2023 de 77,0% para 82,2%. Nosso código, conjuntos de dados e checkpoints estão publicamente disponíveis em https://github.com/Kwai-Klear/RLEP para facilitar a reprodutibilidade e pesquisas futuras.
English
Reinforcement learning (RL) for large language models is an energy-intensive endeavor: training can be unstable, and the policy may gradually drift away from its pretrained weights. We present RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,a two-phase framework that first collects verified trajectories and then replays them during subsequent training. At every update step, the policy is optimized on mini-batches that blend newly generated rollouts with these replayed successes. By replaying high-quality examples, RLEP steers the model away from fruitless exploration, focuses learning on promising reasoning paths, and delivers both faster convergence and stronger final performance. On the Qwen2.5-Math-7B base model, RLEP reaches baseline peak accuracy with substantially fewer updates and ultimately surpasses it, improving accuracy on AIME-2024 from 38.2% to 39.9%, on AIME-2025 from 19.8% to 22.3%, and on AMC-2023 from 77.0% to 82.2%. Our code, datasets, and checkpoints are publicly available at https://github.com/Kwai-Klear/RLEP to facilitate reproducibility and further research.
PDF31July 17, 2025