Обучение рассуждениям с использованием внеполитического руководстваLearning to Reason under Off-Policy Guidance
Последние достижения в области крупных моделей рассуждений (LRMs) демонстрируют, что сложные поведенческие паттерны, такие как многошаговое рассуждение и саморефлексия, могут возникать благодаря обучению с подкреплением (RL) с использованием простых правил на основе вознаграждений. Однако существующие подходы без RL (zero-RL) по своей природе являются «он-политичными», что ограничивает обучение только собственными выводами модели и не позволяет развить способности к рассуждению, выходящие за пределы её начальных возможностей. Мы представляем LUFFY (Learning to reason Under oFF-policY guidance) — фреймворк, который дополняет zero-RL трассировками рассуждений вне политики (off-policy). LUFFY динамически балансирует имитацию и исследование, комбинируя демонстрации вне политики с он-политичными прогонами во время обучения. В частности, мы предлагаем формирование политики с помощью регуляризованного важностного сэмплинга, чтобы избежать поверхностного и жесткого копирования в процессе смешанного обучения. Примечательно, что LUFFY достигает среднего прироста более чем на +7.0 баллов на шести математических бенчмарках и преимущества более чем на +6.2 балла в задачах вне распределения. Он также значительно превосходит тонкую настройку с помощью имитации (SFT), особенно в обобщении. Анализ показывает, что LUFFY не только эффективно имитирует, но и исследует за пределами демонстраций, предлагая масштабируемый путь для обучения обобщаемых моделей рассуждений с использованием внеполитичного руководства.