Le phénomène d'inapprentissage dans le RLVR pour les modèles de langage

Résumé

L'apprentissage par renforcement avec récompense vérifiable (RLVR) s'est révélé efficace pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, la dynamique d'apprentissage du RLVR reste peu explorée. Dans cet article, nous mettons en lumière un phénomène contre-intuitif : parmi les exemples difficiles avec lesquels le modèle peine initialement, une sous-catégorie substantielle demeure impossible à apprendre même lorsque des rollouts corrects sont disponibles. Pour comprendre ce phénomène, nous montrons d'abord que les techniques d'optimisation et d'échantillonnage existantes ne parviennent pas à résoudre cette inapprenabilité. Grâce à une analyse des gradients inter-exemples, nous démontrons que les exemples inapprenables présentent un problème fondamental de représentation, caractérisé par une faible similarité de gradient avec les autres exemples et des schémas de raisonnement non généralisables. Nous montrons en outre que ces défauts de représentation sont difficiles à atténuer en RL, car l'augmentation des données n'améliore pas la similarité des gradients. Notre étude fournit la première caractérisation systématique des données inapprenables dans l'entraînement RLVR et révèle les limitations fondamentales des approches RL actuelles pour les tâches de raisonnement. Le code et les données sont disponibles sur https://github.com/yulinchen99/unlearnability-rlvr.

English

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at https://github.com/yulinchen99/unlearnability-rlvr.