ノイズを含む教師データからLLMはロバストな推論能力を学習できるか?
Can LLMs Learn to Reason Robustly under Noisy Supervision?
April 5, 2026
著者: Shenzhi Yang, Guangcheng Zhu, Bowen Song, Sharon Li, Haobo Wang, Xing Zheng, Yingfan Ma, Zhongqi Chen, Weiqiang Wang, Gang Chen
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、豊富な完全ラベルに依存する推論モデルの訓練に有効であるが、専門家不足による不可避的なノイズラベルへの脆弱性は、依然として重要な未検討課題である。本研究では、RLVRにおけるノイズラベルメカニズムの体系的分析に向けた第一歩を踏み出す。教師あり分類とは対照的に、ほとんどのRLVRアルゴリズムはロールアウトベースの条件を組み込んでいる:ラベルが訓練に与える影響は、現在の方策がそのラベルを実現するロールアウトを生成できるか否かに依存する。この性質はノイズラベルにも自然に拡張される。この観察に基づき、我々はノイズを2種類に区別する:データ効率を低下させる**不活性ノイズラベル**と、強化されてモデルを誤った分布に歪めるリスクがある**活性ノイズラベル**である。ノイズサンプルを用いた訓練実験から、**早期正答一貫性**現象を特定した:ノイズサンプルは後期段階で遅れ始めるものの、訓練初期においてはクリーンサンプルとノイズサンプル双方の正答率が同様に上昇する。この動態に動機付けられ、我々は**オンラインラベル精緻化(OLR)** を提案する。OLRは、2つの条件(多数派回答のロールアウト通過率における正の傾斜、および更新間での安定した履歴一貫性)が満たされた時に、多数決回答を用いて潜在的なノイズラベルを段階的に修正し、方策の改善に伴う漸進的な自己修正を可能とする。OLRを6つのin-distribution数学推論ベンチマーク(AIME24/25, AMC, MATH-500, Minerva, Olympiad)および3つのout-of-distributionタスク(ARC-c, GPQA-diamond, MMLU-pro)で評価した。ノイズ比率0.1から0.9の範囲で、OLRは不活性および活性ノイズラベル設定の双方においてロバスト性を一貫して向上させ、in-distributionベンチマークで平均3.6%~3.9%、out-of-distribution評価で平均3.3%~4.6%の性能向上を達成した。
English
Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.