I modelli linguistici di grandi dimensioni possono imparare a ragionare in modo robusto con supervisione rumorosa?

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) addestra efficacemente modelli di ragionamento che dipendono da abbondanti etichette perfette, ma la sua vulnerabilità alle inevitabili etichette rumorose dovute alla carenza di esperti rimane criticamente poco esplorata. In questo lavoro, compiamo il primo passo verso un'analisi sistematica dei meccanismi delle etichette rumorose in RLVR. A differenza della classificazione supervisionata, la maggior parte degli algoritmi RLVR incorpora una condizione basata su rollout: l'influenza di un'etichetta sull'addestramento è subordinata alla capacità della politica corrente di generare rollout che la realizzino, una proprietà che si estende naturalmente alle etichette rumorose. Sulla base di questa osservazione, distinguiamo due tipi di rumore: etichette rumorose inattive, che riducono l'efficienza dei dati, ed etichette rumorose attive, che vengono rinforzate e rischiano di distorcere il modello verso distribuzioni errate. Dagli esperimenti sull'addestramento con campioni rumorosi, identifichiamo un fenomeno di Coerenza della Correttezza Iniziale: sebbene i campioni rumorosi inizino a rimanere indietro nelle fasi successive, l'accuratezza su campioni sia puliti che rumorosi aumenta in modo simile nelle prime fasi dell'addestramento. Motivati da questa dinamica, proponiamo l'Affinamento Online delle Etichette (OLR), che corregge progressivamente le etichette potenzialmente rumorose con risorse determinate a maggioranza quando due condizioni sono soddisfatte: una pendenza positiva nel tasso di superamento dei rollout della risposta maggioritaria e una stabile coerenza storica tra gli aggiornamenti, consentendo un'autocorrezione graduale con il miglioramento della politica. Valutiamo OLR su sei benchmark di ragionamento matematico in-distribuzione (AIME24/25, AMC, MATH-500, Minerva e Olimpiadi) e tre task out-of-distribuzione (ARC-c, GPQA-diamond e MMLU-pro). Con rapporti di rumore da 0,1 a 0,9, OLR migliora costantemente la robustezza in contesti sia di etichette rumorose inattive che attive, ottenendo guadagni medi dal 3,6% al 3,9% sui benchmark in-distribuzione e dal 3,3% al 4,6% sulle valutazioni out-of-distribuzione.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

I modelli linguistici di grandi dimensioni possono imparare a ragionare in modo robusto con supervisione rumorosa?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Abstract

Support