Apprendimento per Rinforzo per il Ragionamento nei Modelli Linguistici di Grande Dimensione con un Singolo Esempio di AddestramentoReinforcement Learning for Reasoning in Large Language Models with One
Training Example
Dimostriamo che il reinforcement learning con ricompensa verificabile utilizzando un singolo esempio di addestramento (1-shot RLVR) è efficace nell'incentivare le capacità di ragionamento matematico dei grandi modelli linguistici (LLMs). Applicando RLVR al modello base Qwen2.5-Math-1.5B, identifichiamo un singolo esempio che eleva le prestazioni del modello su MATH500 dal 36,0% al 73,6% e migliora la prestazione media su sei benchmark comuni di ragionamento matematico dal 17,6% al 35,7%. Questo risultato eguaglia le prestazioni ottenute utilizzando il sottoinsieme DeepScaleR di 1.2k esempi (MATH500: 73,6%, media: 35,9%), che include l'esempio citato. Miglioramenti sostanziali simili sono osservati in vari modelli (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algoritmi di RL (GRPO e PPO) e diversi esempi matematici (molti dei quali producono un miglioramento di circa il 30% o superiore su MATH500 quando utilizzati come singolo esempio di addestramento). Inoltre, identifichiamo alcuni fenomeni interessanti durante l'1-shot RLVR, tra cui la generalizzazione cross-dominio, l'aumento della frequenza di auto-riflessione e il miglioramento sostenuto delle prestazioni nei test anche dopo che l'accuratezza di addestramento ha raggiunto la saturazione, un fenomeno che definiamo generalizzazione post-saturazione. Verifichiamo inoltre che l'efficacia dell'1-shot RLVR deriva principalmente dalla perdita del gradiente della politica, distinguendola dal fenomeno del "grokking". Mostriamo anche il ruolo cruciale della promozione dell'esplorazione (ad esempio, aggiungendo una perdita di entropia con un coefficiente appropriato) nell'addestramento 1-shot RLVR. Come bonus, osserviamo che l'applicazione della sola perdita di entropia, senza alcuna ricompensa basata sui risultati, migliora significativamente le prestazioni di Qwen2.5-Math-1.5B su MATH500 del 27,4%. Questi risultati possono ispirare lavori futuri sull'efficienza dei dati in RLVR e incoraggiare una rivalutazione sia dei progressi recenti che dei meccanismi sottostanti in RLVR. Il nostro codice, modello e dati sono open source all'indirizzo https://github.com/ypwang61/One-Shot-RLVR.