Kunnen LLM's leren om robuust te redeneren onder ruisige supervisie?

Samenvatting

Reinforcement Learning with Verifiable Rewards (RLVR) traint effectief redeneermodellen die afhankelijk zijn van overvloedige, perfecte labels, maar de kwetsbaarheid ervan voor onvermijdelijke, ruisende labels door een tekort aan experts blijft kritisch onderbelicht. In dit werk zetten we een eerste stap naar een systematische analyse van ruisende labelmechanismen in RLVR. In tegenstelling tot supervised classificatie, incorporeren de meeste RLVR-algoritmen een op rollouts gebaseerde voorwaarde: de invloed van een label op de training is afhankelijk van of het huidige beleid rollouts kan genereren die dit label realiseren – een eigenschap die zich natuurlijk uitstrekt tot ruisende labels. Gebaseerd op deze observatie onderscheiden we twee soorten ruis: inactieve ruisende labels, die de data-efficiëntie verminderen, en actieve ruisende labels, die worden versterkt en het risico lopen het model naar incorrecte verdelingen te sturen. Uit experimenten met training op ruisende samples identificeren we een Early Correctness Coherence-fenomeen: hoewel ruisende samples in latere fases achterblijven, neemt de nauwkeurigheid op zowel schone als ruisende samples in de vroege training vergelijkbaar toe. Gemotiveerd door deze dynamiek stellen we Online Label Refinement (OLR) voor, dat potentieel ruisende labels progressief corrigeert met meerderheidsgestemde antwoorden wanneer aan twee voorwaarden wordt voldaan: een positieve helling in de rollout-slaagpercentage van het meerderheidsantwoord en stabiele historische consistentie tussen updates, wat geleidelijke zelfcorrectie mogelijk maakt naarmate het beleid verbetert. We evalueren OLR op zes in-distribution wiskundige redeneerbenchmarks (AIME24/25, AMC, MATH-500, Minerva en Olympiad) en drie out-of-distribution taken (ARC-c, GPQA-diamond en MMLU-pro). Over ruisratio's van 0.1 tot 0.9 verbetert OLR consistent de robuustheid onder zowel inactieve als actieve ruisende label-instellingen, met gemiddelde winsten van 3.6% tot 3.9% op in-distribution benchmarks en 3.3% tot 4.6% op out-of-distribution evaluaties.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

Kunnen LLM's leren om robuust te redeneren onder ruisige supervisie?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Samenvatting

Support