Il Reinforcement Learning Incentivizza Davvero la Capacità di Ragionamento nei Modelli Linguistici di Grande Scala Oltre il Modello Base?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
April 18, 2025
Autori: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha recentemente dimostrato un notevole successo nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM), in particolare nei compiti di matematica e programmazione. Si ritiene ampiamente che l'RLVR consenta agli LLM di migliorare continuamente se stessi, acquisendo così nuove abilità di ragionamento che superano la capacità dei modelli base corrispondenti. In questo studio, tuttavia, esaminiamo criticamente questa ipotesi misurando la metrica pass@k con valori elevati di k per esplorare il confine delle capacità di ragionamento dei modelli attraverso una vasta gamma di famiglie di modelli e benchmark. Sorprendentemente, l'RL non evoca, di fatto, nuovi schemi di ragionamento fondamentali. Sebbene i modelli addestrati con RL superino i loro modelli base per valori più piccoli di k (ad esempio, k=1), i modelli base possono raggiungere un punteggio pass@k comparabile o addirittura superiore rispetto alle loro controparti RL per valori elevati di k. I percorsi di ragionamento generati dai modelli addestrati con RL sono già inclusi nella distribuzione di campionamento dei modelli base, suggerendo che la maggior parte delle capacità di ragionamento manifestate nei modelli addestrati con RL siano già ottenute dai modelli base. Un'ulteriore analisi mostra che l'addestramento con RL migliora le prestazioni orientando la distribuzione di output del modello verso percorsi che hanno maggiori probabilità di produrre ricompense, campionando così le risposte corrette in modo più efficiente. Ma ciò comporta anche un confine più ristretto delle capacità di ragionamento rispetto ai modelli base. Risultati simili si osservano nei compiti di ragionamento visivo addestrati con RLVR. Inoltre, scopriamo che la distillazione può introdurre genuinamente nuove conoscenze nel modello, diversamente dall'RLVR. Questi risultati evidenziano una limitazione critica dell'RLVR nel progredire le capacità di ragionamento degli LLM, che ci obbliga a ripensare fondamentalmente l'impatto dell'addestramento con RL nei modelli di ragionamento LLM e la necessità di un paradigma migliore. Pagina del progetto: https://limit-of-RLVR.github.io
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently
demonstrated notable success in enhancing the reasoning capabilities of LLMs,
particularly in mathematics and programming tasks. It is widely believed that
RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning
abilities that exceed corresponding base models' capacity. In this study,
however, we critically re-examines this assumption by measuring the
pass@k metric with large values of k to explore the reasoning
capability boundary of the models across a wide range of model families and
benchmarks. Surprisingly, the RL does not, in fact, elicit fundamentally
new reasoning patterns. While RL-trained models outperform their base models at
smaller values of k (\eg, k=1), base models can achieve a comparable or
even higher pass@k score compared to their RL counterparts at large k
values. The reasoning paths generated by RL-trained models are already included
in the base models' sampling distribution, suggesting that most reasoning
abilities manifested in RL-trained models are already obtained by base models.
Further analysis shows that RL training boosts the performance by biasing the
model's output distribution toward paths that are more likely to yield rewards,
therefore sampling correct responses more efficiently. But this also results in
a narrower reasoning capability boundary compared to base models. Similar
results are observed in visual reasoning tasks trained with RLVR. Moreover, we
find that distillation can genuinely introduce new knowledge into the model,
different from RLVR. These findings underscore a critical limitation of RLVR in
advancing LLM reasoning abilities which requires us to fundamentally rethink
the impact of RL training in reasoning LLMs and the need of a better paradigm.
Project Page: https://limit-of-RLVR.github.ioSummary
AI-Generated Summary