Изучение сложных задач в обучении с подкреплением с помощью тонкой настройки с использованием референсных данных

Аннотация

Обучение с подкреплением (RL) для математических рассуждений может страдать от разреженности вознаграждений: при решении сложных задач языковая модель не может сгенерировать ни одной корректной траектории, что лишает RL содержательной позитивной обратной связи. В то же время часто существуют эталонные решения, написанные человеком, вместе с задачей (например, задачи с AoPS), но прямая дообучение на этих решениях не приносит пользы, поскольку модели часто не могут имитировать человеческие доказательства, выходящие за пределы их собственного пространства рассуждений. Мы представляем Reference-Guided Fine-Tuning (ReGFT) — простой и эффективный метод, который использует эталонные решения, написанные человеком, для синтеза позитивных траекторий на сложных задачах и обучения на них перед применением RL. Для каждой задачи мы предоставляем модели часть эталонного решения и позволяем ей сгенерировать собственную цепочку рассуждений, гарантируя, что результирующие траектории остаются в пространстве рассуждений модели, но при этом используют преимущества эталонного руководства. Дообучение на этих траекториях, направляемых эталоном, увеличивает количество решаемых задач и создает контрольную точку, которая получает больше позитивных вознаграждений в процессе RL. На трех тестовых наборах (AIME24, AIME25, BeyondAIME) ReGFT стабильно повышает точность обучения с учителем, ускоряет обучение по методу DAPO и поднимает итоговый уровень производительности RL. Наши результаты показывают, что ReGFT эффективно преодолевает разреженность вознаграждений и раскрывает потенциал RL для математических рассуждений.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Изучение сложных задач в обучении с подкреплением с помощью тонкой настройки с использованием референсных данных

Learn Hard Problems During RL with Reference Guided Fine-tuning

Аннотация

Support