ChatPaper.aiChatPaper

L'Apprendimento per Rinforzo con Ricompense Verificabili Incentiva Implicitamente il Ragionamento Corretto nei Modelli Linguistici di Base

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

June 17, 2025
Autori: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma promettente per potenziare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, un paradosso critico ne offusca l'efficacia: i modelli ottimizzati con RLVR spesso ottengono prestazioni inferiori rispetto ai modelli base sulla metrica Pass@K per la ricerca di soluzioni, portando all'ipotesi che l'RLVR si limiti a ri-pesare i percorsi di ragionamento esistenti a scapito della diversità del ragionamento. In questo lavoro, risolviamo questa contraddizione identificando la fonte del problema: la metrica Pass@K stessa è una misura imperfetta del ragionamento, poiché attribuisce merito a risposte finali corrette che probabilmente derivano da catene di pensiero (CoTs) inaccurati o incompleti. Per affrontare questo problema, introduciamo una metrica di valutazione più precisa, CoT-Pass@K, che richiede che sia il percorso di ragionamento sia la risposta finale siano corretti. Forniamo una nuova fondazione teorica che formalizza come l'RLVR, a differenza del RL tradizionale, sia strutturato in modo unico per incentivare l'integrità logica. I nostri risultati empirici sono incoraggianti: utilizzando CoT-Pass@K, osserviamo che l'RLVR può incentivare la generalizzazione di un ragionamento corretto per tutti i valori di K. Inoltre, analizzando le dinamiche di addestramento, scopriamo che questa capacità di ragionamento potenziata emerge precocemente nel processo di addestramento e si generalizza in modo fluido. Il nostro lavoro fornisce una prospettiva chiara sul ruolo dell'RLVR, offre un metodo più affidabile per la sua valutazione e conferma il suo potenziale per avanzare genuinamente il ragionamento delle macchine.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned models often underperform their base models on the Pass@K metric for solution-finding, leading to the hypothesis that RLVR merely re-weights existing reasoning paths at the cost of reasoning diversity. In this work, we resolve this contradiction by identifying the source of the problem: the Pass@K metric itself is a flawed measure of reasoning, as it credits correct final answers that probably arise from inaccurate or incomplete chains of thought (CoTs). To address this, we introduce a more precise evaluation metric, CoT-Pass@K, which mandates that both the reasoning path and the final answer be correct. We provide a new theoretical foundation that formalizes how RLVR, unlike traditional RL, is uniquely structured to incentivize logical integrity. Our empirical results are supportive: using CoT-Pass@K, we observe that RLVR can incentivize the generalization of correct reasoning for all values of K. Furthermore, by analyzing the training dynamics, we find that this enhanced reasoning capability emerges early in the training process and smoothly generalizes. Our work provides a clear perspective on the role of RLVR, offers a more reliable method for its evaluation, and confirms its potential to genuinely advance machine reasoning.
PDF386June 18, 2025