Os LLMs Podem Aprender a Raciocinar de Forma Robusta sob Supervisão Ruidosa?

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) treina eficazmente modelos de raciocínio que dependem de rótulos perfeitos abundantes, mas a sua vulnerabilidade a rótulos ruidosos inevitáveis devido à escassez de especialistas permanece criticamente subexplorada. Neste trabalho, damos o primeiro passo em direção a uma análise sistemática dos mecanismos de rótulos ruidosos no RLVR. Em contraste com a classificação supervisionada, a maioria dos algoritmos de RLVR incorpora uma condição baseada em *rollout*: a influência de um rótulo no treinamento é contingente à capacidade da política atual gerar *rollouts* que o realizem, uma propriedade que se estende naturalmente aos rótulos ruidosos. Com base nesta observação, distinguimos dois tipos de ruído: rótulos ruidosos inativos, que reduzem a eficiência dos dados, e rótulos ruidosos ativos, que são reforçados e arriscam enviesar o modelo para distribuições incorretas. A partir de experiências com treinamento usando amostras ruidosas, identificamos um fenômeno de Coerência de Correção Precoce: embora as amostras ruidosas comecem a ficar para trás em fases posteriores, a precisão tanto nas amostras limpas quanto nas ruidosas aumenta de forma semelhante no início do treinamento. Motivados por esta dinâmica, propomos o Refinamento de Rótulos Online (OLR), que corrige progressivamente rótulos potencialmente ruidosos com respostas decididas por maioria de votos quando duas condições se verificam: uma inclinação positiva na taxa de aprovação de *rollout* da resposta majoritária e uma consistência histórica estável entre atualizações, permitindo uma autocorreção gradual à medida que a política melhora. Avaliamos o OLR em seis *benchmarks* de raciocínio matemático de distribuição interna (AIME24/25, AMC, MATH-500, Minerva e Olimpíada) e três tarefas de distribuição externa (ARC-c, GPQA-diamond e MMLU-pro). Em proporções de ruído de 0,1 a 0,9, o OLR melhora consistentemente a robustez tanto em configurações de rótulos ruidosos inativos quanto ativos, alcançando ganhos médios de 3,6% a 3,9% nos *benchmarks* de distribuição interna e de 3,3% a 4,6% nas avaliações de distribuição externa.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

Os LLMs Podem Aprender a Raciocinar de Forma Robusta sob Supervisão Ruidosa?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Resumo

Support