Самостоятельно предлагаемые вмешательства позволяют проводить кредитное распределение в рассуждениях больших языковых моделей

Аннотация

Поведенческое обучение с подкреплением (Reinforcement Learning, RL), основанное на результате-вознаграждении, доказало свою эффективность в улучшении способностей к рассуждению у больших языковых моделей (LLM). Однако стандартный RL присваивает кредит только на уровне окончательного ответа: наказывает все цепочки рассуждений, если итог неверен, и равномерно усиливает все шаги, если он корректен. В результате правильные промежуточные шаги в неудачных траекториях могут быть подавлены, а ошибочные шаги в успешных траекториях — усилены. Мы называем этот недостаток проблемой распределения заслуг (credit assignment). Естественным решением было бы обучение модели вознаграждения за процесс, однако точная оптимизация таких моделей для идентификации корректирующих шагов рассуждения остается сложной задачей. Мы представляем Интервенционное обучение (Intervention Training, InT) — парадигму обучения, в рамках которой модель выполняет детализированное распределение заслуг для собственных траекторий рассуждений, предлагая краткие, целевые корректировки, которые направляют траекторию к более высокому вознаграждению. Используя эталонные решения, обычно доступные в наборах данных для математических рассуждений, и тот факт, что проверить сгенерированное моделью решение проще, чем сгенерировать корректное с нуля, модель идентифицирует первую ошибку в своих рассуждениях и предлагает одношаговую интервенцию, чтобы перенаправить траекторию к верному решению. Затем мы применяем контролируемое тонкое настройку (Supervised Fine-Tuning, SFT) к он-политичной траектории вплоть до точки ошибки, объединенной с интервенцией, локализуя ошибку на конкретном шаге, вызвавшем сбой. Мы показываем, что полученная модель служит гораздо лучшей инициализацией для RL-обучения. После проведения InT и последующей тонкой настройки с помощью RL мы улучшаем точность почти на 14% по сравнению с базовой моделью на 4 миллиарда параметров на IMO-AnswerBench, превосходя более крупные открытые модели, такие как gpt-oss-20b.

English

Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.

Самостоятельно предлагаемые вмешательства позволяют проводить кредитное распределение в рассуждениях больших языковых моделей

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

Аннотация

Support