Le renforcement de l'apprentissage incite-t-il réellement la capacité de raisonnement des LLM au-delà du modèle de base ?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
April 18, 2025
Auteurs: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
cs.AI
Résumé
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment démontré un succès notable dans l'amélioration des capacités de raisonnement des LLM, en particulier dans les tâches de mathématiques et de programmation. Il est largement admis que le RLVR permet aux LLM de s'auto-améliorer continuellement, acquérant ainsi de nouvelles capacités de raisonnement qui dépassent celles des modèles de base correspondants. Dans cette étude, cependant, nous réexaminons de manière critique cette hypothèse en mesurant la métrique pass@k avec des valeurs élevées de k pour explorer les limites des capacités de raisonnement des modèles à travers une large gamme de familles de modèles et de benchmarks. Étonnamment, le RL ne suscite pas, en réalité, de nouveaux schémas de raisonnement fondamentaux. Bien que les modèles entraînés par RL surpassent leurs modèles de base pour des valeurs plus petites de k (par exemple, k=1), les modèles de base peuvent atteindre un score pass@k comparable, voire supérieur, à celui de leurs homologues RL pour des valeurs élevées de k. Les chemins de raisonnement générés par les modèles entraînés par RL sont déjà inclus dans la distribution d'échantillonnage des modèles de base, suggérant que la plupart des capacités de raisonnement manifestées dans les modèles entraînés par RL sont déjà acquises par les modèles de base. Une analyse plus approfondie montre que l'entraînement par RL améliore les performances en biaisant la distribution de sortie du modèle vers des chemins plus susceptibles de générer des récompenses, échantillonnant ainsi les réponses correctes plus efficacement. Mais cela entraîne également une limite plus étroite des capacités de raisonnement par rapport aux modèles de base. Des résultats similaires sont observés dans les tâches de raisonnement visuel entraînées avec RLVR. De plus, nous constatons que la distillation peut véritablement introduire de nouvelles connaissances dans le modèle, contrairement au RLVR. Ces résultats mettent en lumière une limitation critique du RLVR dans l'avancement des capacités de raisonnement des LLM, ce qui nous oblige à repenser fondamentalement l'impact de l'entraînement par RL dans les LLM de raisonnement et la nécessité d'un meilleur paradigme. Page du projet : https://limit-of-RLVR.github.io
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently
demonstrated notable success in enhancing the reasoning capabilities of LLMs,
particularly in mathematics and programming tasks. It is widely believed that
RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning
abilities that exceed corresponding base models' capacity. In this study,
however, we critically re-examines this assumption by measuring the
pass@k metric with large values of k to explore the reasoning
capability boundary of the models across a wide range of model families and
benchmarks. Surprisingly, the RL does not, in fact, elicit fundamentally
new reasoning patterns. While RL-trained models outperform their base models at
smaller values of k (\eg, k=1), base models can achieve a comparable or
even higher pass@k score compared to their RL counterparts at large k
values. The reasoning paths generated by RL-trained models are already included
in the base models' sampling distribution, suggesting that most reasoning
abilities manifested in RL-trained models are already obtained by base models.
Further analysis shows that RL training boosts the performance by biasing the
model's output distribution toward paths that are more likely to yield rewards,
therefore sampling correct responses more efficiently. But this also results in
a narrower reasoning capability boundary compared to base models. Similar
results are observed in visual reasoning tasks trained with RLVR. Moreover, we
find that distillation can genuinely introduce new knowledge into the model,
different from RLVR. These findings underscore a critical limitation of RLVR in
advancing LLM reasoning abilities which requires us to fundamentally rethink
the impact of RL training in reasoning LLMs and the need of a better paradigm.
Project Page: https://limit-of-RLVR.github.ioSummary
AI-Generated Summary