Fördert Reinforcement Learning wirklich die Denkfähigkeit von LLMs über das Basismodell hinaus?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
April 18, 2025
Autoren: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat kürzlich bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens gezeigt, insbesondere bei mathematischen und Programmieraufgaben. Es wird allgemein angenommen, dass RLVR es LLMs ermöglicht, sich kontinuierlich selbst zu verbessern und dadurch neue Denkfähigkeiten zu erlangen, die die Kapazität der entsprechenden Basismodelle übertreffen. In dieser Studie wird diese Annahme jedoch kritisch überprüft, indem die pass@k-Metrik mit großen Werten von k gemessen wird, um die Grenzen der Denkfähigkeit der Modelle über eine breite Palette von Modellfamilien und Benchmarks hinweg zu untersuchen. Überraschenderweise führt RL tatsächlich nicht zu grundlegend neuen Denkmustern. Während RL-trainierte Modelle ihre Basismodelle bei kleineren Werten von k (z.B. k=1) übertreffen, können Basismodelle bei großen k-Werten vergleichbare oder sogar höhere pass@k-Werte im Vergleich zu ihren RL-Pendants erreichen. Die von RL-trainierten Modellen generierten Denkpfade sind bereits in der Stichprobenverteilung der Basismodelle enthalten, was darauf hindeutet, dass die meisten Denkfähigkeiten, die in RL-trainierten Modellen zum Ausdruck kommen, bereits von den Basismodellen erworben wurden. Eine weitere Analyse zeigt, dass das RL-Training die Leistung verbessert, indem es die Ausgabeverteilung des Modells in Richtung von Pfaden verzerrt, die mit höherer Wahrscheinlichkeit Belohnungen liefern und somit korrekte Antworten effizienter abtasten. Dies führt jedoch auch zu einer engeren Grenze der Denkfähigkeit im Vergleich zu Basismodellen. Ähnliche Ergebnisse werden bei visuellen Denkaufgaben beobachtet, die mit RLVR trainiert wurden. Darüber hinaus stellen wir fest, dass Distillation tatsächlich neues Wissen in das Modell einführen kann, im Gegensatz zu RLVR. Diese Erkenntnisse verdeutlichen eine kritische Einschränkung von RLVR bei der Weiterentwicklung der Denkfähigkeiten von LLMs, was uns dazu zwingt, die Auswirkungen von RL-Training auf LLMs im Bereich des logischen Denkens grundlegend zu überdenken und die Notwendigkeit eines besseren Paradigmas zu betonen. Projektseite: https://limit-of-RLVR.github.io
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently
demonstrated notable success in enhancing the reasoning capabilities of LLMs,
particularly in mathematics and programming tasks. It is widely believed that
RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning
abilities that exceed corresponding base models' capacity. In this study,
however, we critically re-examines this assumption by measuring the
pass@k metric with large values of k to explore the reasoning
capability boundary of the models across a wide range of model families and
benchmarks. Surprisingly, the RL does not, in fact, elicit fundamentally
new reasoning patterns. While RL-trained models outperform their base models at
smaller values of k (\eg, k=1), base models can achieve a comparable or
even higher pass@k score compared to their RL counterparts at large k
values. The reasoning paths generated by RL-trained models are already included
in the base models' sampling distribution, suggesting that most reasoning
abilities manifested in RL-trained models are already obtained by base models.
Further analysis shows that RL training boosts the performance by biasing the
model's output distribution toward paths that are more likely to yield rewards,
therefore sampling correct responses more efficiently. But this also results in
a narrower reasoning capability boundary compared to base models. Similar
results are observed in visual reasoning tasks trained with RLVR. Moreover, we
find that distillation can genuinely introduce new knowledge into the model,
different from RLVR. These findings underscore a critical limitation of RLVR in
advancing LLM reasoning abilities which requires us to fundamentally rethink
the impact of RL training in reasoning LLMs and the need of a better paradigm.
Project Page: https://limit-of-RLVR.github.ioSummary
AI-Generated Summary