Repousser les limites du raisonnement des modèles de langage de grande taille

papers.abstract

Les algorithmes actuels d'apprentissage par renforcement en ligne (RL) comme GRPO partagent une limitation clé dans le raisonnement des modèles de langage (LLM) : ils ne peuvent pas apprendre à partir de problèmes qui sont "insolubles" pour le modèle. En d'autres termes, ils ne peuvent améliorer les performances que sur des problèmes pour lesquels le modèle est capable d'explorer la réponse correcte. Par conséquent, la "limite supérieure" du modèle reste inchangée après l'entraînement RL, même si la probabilité de résoudre des problèmes plus faciles et solubles peut augmenter. Ces échantillons difficiles ne peuvent pas contribuer à l'entraînement, car aucun déploiement ne génère de récompenses et donc aucun gradient n'est produit. Pour permettre l'apprentissage à partir de ces échantillons difficiles, nous proposons NuRL, une méthode de "poussée" qui vise à repousser la limite supérieure du raisonnement des LLM en utilisant des indices auto-générés, c'est-à-dire des indices abstraits qui aident à réduire la difficulté du problème pour le modèle. Étant donné une question et sa réponse correcte, le modèle génère une chaîne de pensée (CoT) puis produit un indice contenant les connaissances essentielles nécessaires pour résoudre le problème. Pendant l'entraînement, nous générons G déploiements à partir de la politique de base et utilisons le taux de réussite pour décider si l'indice doit être injecté. Pour les échantillons difficiles avec un taux de réussite de 0 %, nous injectons l'indice et régénérons un nouveau lot de trajectoires. Cela apporte deux avantages : (1) l'indice augmente les taux de réussite (de 0 % à une valeur non nulle), introduisant ainsi des signaux d'entraînement pour les échantillons précédemment insolubles, et (2) les indices sont auto-générés, évitant un décalage de distribution et ne dépendant pas de modèles externes. NuRL obtient des améliorations constantes sur 6 benchmarks et 3 modèles, tout en restant complémentaire à la mise à l'échelle au moment du test. Notamment, NuRL peut augmenter la limite supérieure du modèle, alors que GRPO laisse le pass@1024 inchangé par rapport au modèle de base. De plus, nous présentons une étude systématique de ce qui constitue un indice efficace et quand les indices sont les plus utiles. Fait intéressant, les meilleurs indices sont abstraits et de haut niveau, et sont les plus bénéfiques lorsqu'ils sont appliqués de manière nécessaire et après que GRPO a convergé.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

Repousser les limites du raisonnement des modèles de langage de grande taille

Nudging the Boundaries of LLM Reasoning

papers.abstract

Support