ChatPaper.aiChatPaper

Apprendimento per Rinforzo per il Ragionamento nei Modelli Linguistici di Grande Dimensione con un Singolo Esempio di Addestramento

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

April 29, 2025
Autori: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI

Abstract

Dimostriamo che il reinforcement learning con ricompensa verificabile utilizzando un singolo esempio di addestramento (1-shot RLVR) è efficace nell'incentivare le capacità di ragionamento matematico dei grandi modelli linguistici (LLMs). Applicando RLVR al modello base Qwen2.5-Math-1.5B, identifichiamo un singolo esempio che eleva le prestazioni del modello su MATH500 dal 36,0% al 73,6% e migliora la prestazione media su sei benchmark comuni di ragionamento matematico dal 17,6% al 35,7%. Questo risultato eguaglia le prestazioni ottenute utilizzando il sottoinsieme DeepScaleR di 1.2k esempi (MATH500: 73,6%, media: 35,9%), che include l'esempio citato. Miglioramenti sostanziali simili sono osservati in vari modelli (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmi di RL (GRPO e PPO) e diversi esempi matematici (molti dei quali producono un miglioramento di circa il 30% o superiore su MATH500 quando utilizzati come singolo esempio di addestramento). Inoltre, identifichiamo alcuni fenomeni interessanti durante l'1-shot RLVR, tra cui la generalizzazione cross-dominio, l'aumento della frequenza di auto-riflessione e il miglioramento sostenuto delle prestazioni nei test anche dopo che l'accuratezza di addestramento ha raggiunto la saturazione, un fenomeno che definiamo generalizzazione post-saturazione. Verifichiamo inoltre che l'efficacia dell'1-shot RLVR deriva principalmente dalla perdita del gradiente della politica, distinguendola dal fenomeno del "grokking". Mostriamo anche il ruolo cruciale della promozione dell'esplorazione (ad esempio, aggiungendo una perdita di entropia con un coefficiente appropriato) nell'addestramento 1-shot RLVR. Come bonus, osserviamo che l'applicazione della sola perdita di entropia, senza alcuna ricompensa basata sui risultati, migliora significativamente le prestazioni di Qwen2.5-Math-1.5B su MATH500 del 27,4%. Questi risultati possono ispirare lavori futuri sull'efficienza dei dati in RLVR e incoraggiare una rivalutazione sia dei progressi recenti che dei meccanismi sottostanti in RLVR. Il nostro codice, modello e dati sono open source all'indirizzo https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the "grokking" phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

Summary

AI-Generated Summary

PDF363April 30, 2025