Обучение рассуждениям с использованием внеполитического руководства
Learning to Reason under Off-Policy Guidance
April 21, 2025
Авторы: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
Аннотация
Последние достижения в области крупных моделей рассуждений (LRMs) демонстрируют, что сложные поведенческие паттерны, такие как многошаговое рассуждение и саморефлексия, могут возникать благодаря обучению с подкреплением (RL) с использованием простых правил на основе вознаграждений. Однако существующие подходы без RL (zero-RL) по своей природе являются «он-политичными», что ограничивает обучение только собственными выводами модели и не позволяет развить способности к рассуждению, выходящие за пределы её начальных возможностей. Мы представляем LUFFY (Learning to reason Under oFF-policY guidance) — фреймворк, который дополняет zero-RL трассировками рассуждений вне политики (off-policy). LUFFY динамически балансирует имитацию и исследование, комбинируя демонстрации вне политики с он-политичными прогонами во время обучения. В частности, мы предлагаем формирование политики с помощью регуляризованного важностного сэмплинга, чтобы избежать поверхностного и жесткого копирования в процессе смешанного обучения. Примечательно, что LUFFY достигает среднего прироста более чем на +7.0 баллов на шести математических бенчмарках и преимущества более чем на +6.2 балла в задачах вне распределения. Он также значительно превосходит тонкую настройку с помощью имитации (SFT), особенно в обобщении. Анализ показывает, что LUFFY не только эффективно имитирует, но и исследует за пределами демонстраций, предлагая масштабируемый путь для обучения обобщаемых моделей рассуждений с использованием внеполитичного руководства.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary