Aprendizado por Reforço para Raciocínio em Modelos de Linguagem de Grande Escala com Um Único Exemplo de Treinamento
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
April 29, 2025
Autores: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI
Resumo
Demonstramos que o aprendizado por reforço com recompensa verificável usando um único exemplo de treinamento (RLVR 1-shot) é eficaz para incentivar as capacidades de raciocínio matemático de modelos de linguagem de grande escala (LLMs). Aplicando RLVR ao modelo base Qwen2.5-Math-1.5B, identificamos um único exemplo que eleva o desempenho do modelo no MATH500 de 36,0% para 73,6% e melhora o desempenho médio em seis benchmarks comuns de raciocínio matemático de 17,6% para 35,7%. Esse resultado corresponde ao desempenho obtido usando o subconjunto DeepScaleR de 1,2k (MATH500: 73,6%, média: 35,9%), que inclui o exemplo mencionado. Melhorias substanciais semelhantes são observadas em vários modelos (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmos de RL (GRPO e PPO) e diferentes exemplos matemáticos (muitos dos quais proporcionam uma melhoria de aproximadamente 30% ou mais no MATH500 quando usados como um único exemplo de treinamento). Além disso, identificamos alguns fenômenos interessantes durante o RLVR 1-shot, incluindo generalização entre domínios, aumento da frequência de autorreflexão e melhoria sustentada no desempenho de teste mesmo após a precisão do treinamento ter saturado, um fenômeno que denominamos generalização pós-saturação. Adicionalmente, verificamos que a eficácia do RLVR 1-shot surge principalmente da perda de gradiente de política, distinguindo-a do fenômeno de "grokking". Também mostramos o papel crítico de promover a exploração (por exemplo, adicionando perda de entropia com um coeficiente apropriado) no treinamento de RLVR 1-shot. Como bônus, observamos que aplicar apenas a perda de entropia, sem qualquer recompensa de resultado, melhora significativamente o desempenho do Qwen2.5-Math-1.5B no MATH500 em 27,4%. Essas descobertas podem inspirar trabalhos futuros sobre a eficiência de dados em RLVR e encorajar uma reavaliação tanto do progresso recente quanto dos mecanismos subjacentes no RLVR. Nosso código, modelo e dados são de código aberto em https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training
example (1-shot RLVR) is effective in incentivizing the math reasoning
capabilities of large language models (LLMs). Applying RLVR to the base model
Qwen2.5-Math-1.5B, we identify a single example that elevates model performance
on MATH500 from 36.0% to 73.6%, and improves the average performance across six
common mathematical reasoning benchmarks from 17.6% to 35.7%. This result
matches the performance obtained using the 1.2k DeepScaleR subset (MATH500:
73.6%, average: 35.9%), which includes the aforementioned example. Similar
substantial improvements are observed across various models (Qwen2.5-Math-7B,
Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and
PPO), and different math examples (many of which yield approximately 30% or
greater improvement on MATH500 when employed as a single training example). In
addition, we identify some interesting phenomena during 1-shot RLVR, including
cross-domain generalization, increased frequency of self-reflection, and
sustained test performance improvement even after the training accuracy has
saturated, a phenomenon we term post-saturation generalization. Moreover, we
verify that the effectiveness of 1-shot RLVR primarily arises from the policy
gradient loss, distinguishing it from the "grokking" phenomenon. We also show
the critical role of promoting exploration (e.g., by adding entropy loss with
an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe
that applying entropy loss alone, without any outcome reward, significantly
enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings
can inspire future work on RLVR data efficiency and encourage a re-examination
of both recent progress and the underlying mechanisms in RLVR. Our code, model,
and data are open source at https://github.com/ypwang61/One-Shot-RLVRSummary
AI-Generated Summary