ResRL : Amélioration du raisonnement des LLM par apprentissage par renforcement résiduel basé sur la projection d'échantillons négatifs

Résumé

L’apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore le raisonnement des grands modèles de langage (LLM) mais présente généralement une diversité de génération limitée en raison d’une sur-incitation aux récompenses positives. Bien que des méthodes comme le renforcement par échantillons négatifs (NSR) atténuent ce problème en pondérant davantage les pénalités des échantillons négatifs, elles peuvent supprimer les distributions sémantiques partagées entre les réponses positives et négatives. Pour renforcer les capacités de raisonnement sans perdre en diversité, cet article propose l’apprentissage par renforcement résiduel par projection d’échantillons négatifs (ResRL), qui découple les distributions sémantiques similaires entre réponses positives et négatives. Nous établissons théoriquement un lien entre le déplacement de vraisemblance paresseux (LLD) et l’interférence des gradients de tête négatifs-positifs, et dérivons un proxy à propagation unique qui borne supérieurement l’alignement des représentations pour guider une repondération conservative de l’avantage. ResRL projette ensuite les représentations cachées des tokens négatifs sur un sous-espace positif de faible rang basé sur la SVD et utilise les résidus de projection pour moduler les gradients négatifs, améliorant le raisonnement tout en préservant la diversité et surpassant en moyenne des bases de référence solides sur douze benchmarks couvrant les mathématiques, le code, les tâches d’agent et l’appel de fonctions. Notamment, ResRL dépasse NSR en raisonnement mathématique de 9,4 % en Avg@16 et de 7,0 % en Pass@128. Le code est disponible à l’adresse https://github.com/1229095296/ResRL.git.

English

Reinforcement Learning with Verifiable Rewards (RLVR) enhances reasoning of Large Language Models (LLMs) but usually exhibits limited generation diversity due to the over-incentivization of positive rewards. Although methods like Negative Sample Reinforcement (NSR) mitigate this issue by upweighting penalty from negative samples, they may suppress the semantic distributions shared between positive and negative responses. To boost reasoning ability without losing diversity, this paper proposes negative sample projection Residual Reinforcement Learning (ResRL) that decouples similar semantic distributions among positive and negative responses. We theoretically link Lazy Likelihood Displacement (LLD) to negative-positive head-gradient interference and derive a single-forward proxy that upper-bounds representation alignment to guide conservative advantage reweighting. ResRL then projects negative-token hidden representations onto an SVD-based low-rank positive subspace and uses projection residuals to modulate negative gradients, improving reasoning while preserving diversity and outperforming strong baselines on average across twelve benchmarks spanning Mathematics, Code, Agent Tasks, and Function Calling. Notably, ResRL surpasses NSR on mathematical reasoning by 9.4\% in Avg@16 and 7.0\% in Pass@128. Code is available at https://github.com/1229095296/ResRL.git.

ResRL : Amélioration du raisonnement des LLM par apprentissage par renforcement résiduel basé sur la projection d'échantillons négatifs

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

Résumé

Support