Могут ли большие языковые модели научиться устойчиво рассуждать в условиях зашумленного обучения?

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) эффективно обучает модели рассуждений, опирающиеся на обилие идеальных меток, однако его уязвимость к неизбежным зашумленным меткам из-за дефицита экспертов остается критически малоисследованной. В данной работе мы делаем первый шаг к систематическому анализу механизмов зашумленных меток в RLVR. В отличие от обучения с учителем для классификации, большинство алгоритмов RLVR включают условие на основе траекторий: влияние метки на обучение зависит от того, может ли текущая политика сгенерировать траектории, которые ее реализуют, — свойство, естественным образом распространяющееся и на зашумленные метки. Основываясь на этом наблюдении, мы различаем два типа шума: неактивные зашумленные метки, которые снижают эффективность использования данных, и активные зашумленные метки, которые усиливаются и рискуют сместить модель в сторону неверных распределений. Из экспериментов по обучению на зашумленных примерах мы выявляем феномен Ранней Согласованности Корректности: хотя зашумленные примеры начинают отставать на поздних этапах, точность как на чистых, так и на зашумленных примерах растет схожим образом на ранних стадиях обучения. Мотивированные этой динамикой, мы предлагаем метод Онлайн-Уточнения Меток (OLR), который постепенно исправляет потенциально зашумленные метки на ответы, выбранные большинством голосов, при выполнении двух условий: положительный наклон в проценте успешных траекторий для ответа большинства и стабильная историческая согласованность между обновлениями, что позволяет осуществлять постепенную самокоррекцию по мере улучшения политики. Мы оцениваем OLR на шести бенчмарках математических рассуждений из того же распределения (AIME24/25, AMC, MATH-500, Minerva и Olympiad) и трех задачах из других распределений (ARC-c, GPQA-diamond и MMLU-pro). При уровнях шума от 0.1 до 0.9 OLR последовательно повышает устойчивость как в условиях неактивных, так и активных зашумленных меток, демонстрируя средний прирост от 3.6% до 3.9% на бенчмарках из того же распределения и от 3.3% до 4.6% на оценках из других распределений.

English

Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains reasoning models that rely on abundant perfect labels, but its vulnerability to unavoidable noisy labels due to expert scarcity remains critically underexplored. In this work, we take the first step toward a systematic analysis of noisy label mechanisms in RLVR. In contrast to supervised classification, most RLVR algorithms incorporate a rollout-based condition: a label's influence on training is contingent on whether the current policy can generate rollouts that realize it, a property that naturally extends to noisy labels. Based on this observation, we distinguish two types of noise: inactive noisy labels, which reduce data efficiency, and active noisy labels, which are reinforced and risk skewing the model toward incorrect distributions. From experiments on training with noisy samples, we identify an Early Correctness Coherence phenomenon: although noisy samples begin to lag behind in later stages, accuracy on both clean and noisy samples increases similarly in early training. Motivated by this dynamic, we propose Online Label Refinement (OLR), which progressively corrects potentially noisy labels with majority-voted answers when two conditions hold: a positive slope in the majority answer's rollout pass rate and stable historical consistency across updates, enabling gradual self-correction as the policy improves. We evaluate OLR on six in-distribution mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). Across noise ratios from 0.1 to 0.9, OLR consistently improves robustness under both inactive and active noisy-label settings, achieving average gains of 3.6% to 3.9% on in-distribution benchmarks and 3.3% to 4.6% on out-of-distribution evaluations.

Могут ли большие языковые модели научиться устойчиво рассуждать в условиях зашумленного обучения?

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Аннотация

Support