Können LLMs robustes Schließen unter verrauschter Supervision erlernen?

Zusammenfassung

Reinforcement Learning with Verifiable Rewards (RLVR) trainiert effektiv Reasoning-Modelle, die auf umfangreiche perfekte Labels angewiesen sind, doch seine Anfälligkeit für unvermeidbare verrauschte Labels aufgrund von Expert:innenmangel bleibt kritisch untererforscht. In dieser Arbeit unternehmen wir einen ersten Schritt hin zu einer systematischen Analyse von Rauschmechanismen in Labels für RLVR. Im Gegensatz zum überwachten Klassifizieren beinhalten die meisten RLVR-Algorithmen eine rollout-basierte Bedingung: Der Einfluss eines Labels auf das Training hängt davon ab, ob die aktuelle Policy Rollouts generieren kann, die es realisieren – eine Eigenschaft, die sich natürlich auf verrauschte Labels erstreckt. Basierend auf dieser Beobachtung unterscheiden wir zwei Rauscharten: inaktive verrauschte Labels, welche die Dateneffizienz verringern, und aktive verrauschte Labels, die verstärkt werden und das Modell hin zu falschen Verteilungen verzerren können. Aus Experimenten zum Training mit verrauschten Stichproben identifizieren wir ein Phänomen der frühen Korrektheits-Kohärenz: Obwohl verrauschte Stichproben in späteren Phasen zurückfallen, steigt die Genauigkeit bei sauberen und verrauschten Stichproben im frühen Training ähnlich an. Motiviert durch diese Dynamik schlagen wir Online Label Refinement (OLR) vor, das potenziell verrauschte Labels schrittweise mit Mehrheitsantworten korrigiert, sofern zwei Bedingungen erfüllt sind: eine positive Steigung der Rollout-Erfolgsrate der Mehrheitsantwort und stabile historische Konsistenz über Updates hinweg, was eine schrittweise Selbstkorrektur bei sich verbessernder Policy ermöglicht. Wir evaluieren OLR auf sechs Mathematical-Reasoning-Benchmarks innerhalb der Verteilung (AIME24/25, AMC, MATH-500, Minerva und Olympiad) und drei Aufgaben außerhalb der Verteilung (ARC-c, GPQA-diamond und MMLU-pro). Über Rauschverhältnisse von 0,1 bis 0,9 hinweg verbessert OLR konsistent die Robustheit unter inaktiven und aktiven verrauschten Label-Settings und erzielt durchschnittliche Steigerungen von 3,6 % bis 3,9 % bei Benchmarks innerhalb der Verteilung und 3,3 % bis 4,6 % bei Evaluationen außerhalb der Verteilung.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

Können LLMs robustes Schließen unter verrauschter Supervision erlernen?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Zusammenfassung

Support