Le renforcement de l'apprentissage incite-t-il réellement la capacité de raisonnement des LLM au-delà du modèle de base ?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment démontré un succès notable dans l'amélioration des capacités de raisonnement des LLM, en particulier dans les tâches de mathématiques et de programmation. Il est largement admis que le RLVR permet aux LLM de s'auto-améliorer continuellement, acquérant ainsi de nouvelles capacités de raisonnement qui dépassent celles des modèles de base correspondants. Dans cette étude, cependant, nous réexaminons de manière critique cette hypothèse en mesurant la métrique pass@k avec des valeurs élevées de k pour explorer les limites des capacités de raisonnement des modèles à travers une large gamme de familles de modèles et de benchmarks. Étonnamment, le RL ne suscite pas, en réalité, de nouveaux schémas de raisonnement fondamentaux. Bien que les modèles entraînés par RL surpassent leurs modèles de base pour des valeurs plus petites de k (par exemple, k=1), les modèles de base peuvent atteindre un score pass@k comparable, voire supérieur, à celui de leurs homologues RL pour des valeurs élevées de k. Les chemins de raisonnement générés par les modèles entraînés par RL sont déjà inclus dans la distribution d'échantillonnage des modèles de base, suggérant que la plupart des capacités de raisonnement manifestées dans les modèles entraînés par RL sont déjà acquises par les modèles de base. Une analyse plus approfondie montre que l'entraînement par RL améliore les performances en biaisant la distribution de sortie du modèle vers des chemins plus susceptibles de générer des récompenses, échantillonnant ainsi les réponses correctes plus efficacement. Mais cela entraîne également une limite plus étroite des capacités de raisonnement par rapport aux modèles de base. Des résultats similaires sont observés dans les tâches de raisonnement visuel entraînées avec RLVR. De plus, nous constatons que la distillation peut véritablement introduire de nouvelles connaissances dans le modèle, contrairement au RLVR. Ces résultats mettent en lumière une limitation critique du RLVR dans l'avancement des capacités de raisonnement des LLM, ce qui nous oblige à repenser fondamentalement l'impact de l'entraînement par RL dans les LLM de raisonnement et la nécessité d'un meilleur paradigme. Page du projet : https://limit-of-RLVR.github.io