Les modèles de langage à grande échelle peuvent-ils apprendre à raisonner de manière robuste avec une supervision bruitée ?

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) forme efficacement des modèles de raisonnement qui dépendent d'une abondance d'étiquettes parfaites, mais sa vulnérabilité face aux étiquettes bruitées inévitables dues à la pénurie d'experts reste cruellement sous-étudiée. Dans ce travail, nous franchissons une première étape vers une analyse systématique des mécanismes des étiquettes bruitées dans le RLVR. Contrairement à la classification supervisée, la plupart des algorithmes de RLVR intègrent une condition basée sur des déroulements : l'influence d'une étiquette sur l'entraînement dépend de la capacité de la politique actuelle à générer des séquences qui la réalisent, une propriété qui s'étend naturellement aux étiquettes bruitées. Sur la base de cette observation, nous distinguons deux types de bruit : les étiquettes bruitées inactives, qui réduisent l'efficacité des données, et les étiquettes bruitées actives, qui sont renforcées et risquent de biaiser le modèle vers des distributions incorrectes. À partir d'expériences d'entraînement avec des échantillons bruités, nous identifions un phénomène de Cohérence Précoce de la Correction : bien que les échantillons bruités commencent à prendre du retard aux stades ultérieurs, la précision sur les échantillons propres et bruités augmente de manière similaire en début d'entraînement. Motivés par cette dynamique, nous proposons le Raffinement en Ligne des Étiquettes (OLR), qui corrige progressivement les étiquettes potentiellement bruitées avec des réponses décidées à la majorité lorsque deux conditions sont remplies : une pente positive dans le taux de réussite des déroulements de la réponse majoritaire et une cohérence historique stable entre les mises à jour, permettant une auto-correction graduelle à mesure que la politique s'améliore. Nous évaluons OLR sur six benchmarks de raisonnement mathématique en distribution (AIME24/25, AMC, MATH-500, Minerva et Olympiad) et trois tâches hors distribution (ARC-c, GPQA-diamond et MMLU-pro). Pour des ratios de bruit allant de 0,1 à 0,9, OLR améliore constamment la robustesse dans les contextes d'étiquettes bruitées inactives et actives, obtenant des gains moyens de 3,6 % à 3,9 % sur les benchmarks en distribution et de 3,3 % à 4,6 % sur les évaluations hors distribution.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

Les modèles de langage à grande échelle peuvent-ils apprendre à raisonner de manière robuste avec une supervision bruitée ?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Résumé

Support