¿Pueden los LLMs aprender a razonar de manera robusta bajo supervisión ruidosa?

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) entrena eficazmente modelos de razonamiento que dependen de abundantes etiquetas perfectas, pero su vulnerabilidad ante el ruido inevitable en las etiquetas debido a la escasez de expertos sigue estando críticamente poco explorada. En este trabajo, damos el primer paso hacia un análisis sistemático de los mecanismos de etiquetas ruidosas en RLVR. A diferencia de la clasificación supervisada, la mayoría de los algoritmos RLVR incorporan una condición basada en *rollouts*: la influencia de una etiqueta en el entrenamiento depende de si la política actual puede generar *rollouts* que la alcancen, una propiedad que se extiende naturalmente a las etiquetas ruidosas. Basándonos en esta observación, distinguimos dos tipos de ruido: las etiquetas ruidosas inactivas, que reducen la eficiencia de los datos, y las etiquetas ruidosas activas, que se refuerzan y corren el riesgo de sesgar el modelo hacia distribuciones incorrectas. A partir de experimentos de entrenamiento con muestras ruidosas, identificamos un fenómeno de Coherencia de Corrección Temprana: aunque las muestras ruidosas comienzan a rezagarse en etapas posteriores, la precisión tanto en muestras limpias como ruidosas aumenta de manera similar en las primeras fases del entrenamiento. Motivados por esta dinámica, proponemos el Refinamiento de Etiquetas en Línea (OLR), que corrige progresivamente las etiquetas potencialmente ruidosas con respuestas obtenidas por votación mayoritaria cuando se cumplen dos condiciones: una pendiente positiva en la tasa de acierto de los *rollouts* para la respuesta mayoritaria y una consistencia histórica estable entre actualizaciones, permitiendo una autocorrección gradual a medida que la política mejora. Evaluamos OLR en seis benchmarks de razonamiento matemático dentro de la distribución (AIME24/25, AMC, MATH-500, Minerva y Olimpiada) y tres tareas fuera de distribución (ARC-c, GPQA-diamond y MMLU-pro). En ratios de ruido de 0.1 a 0.9, OLR mejora consistentemente la robustez tanto en entornos de etiquetas ruidosas inactivas como activas, logrando ganancias promedio de 3.6% a 3.9% en los benchmarks dentro de distribución y de 3.3% a 4.6% en las evaluaciones fuera de distribución.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

¿Pueden los LLMs aprender a razonar de manera robusta bajo supervisión ruidosa?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Resumen

Support