ChatPaper.aiChatPaper

Лучшее из N миров: согласование обучения с подкреплением с выборкой Best-of-N через оптимизацию max@k

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

October 27, 2025
Авторы: Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov
cs.AI

Аннотация

Применение обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) к математическим и программным областям продемонстрировало значительное улучшение способностей крупных языковых моделей к рассуждению и решению задач. Несмотря на успехи в решении задач с единичной генерацией, процесс тонкой настройки с подкреплением может снизить исследовательскую способность модели, что выражается в уменьшении разнообразия генераций и последующем ухудшении производительности при Best-of-N сэмплировании для больших значений N. В данной работе мы фокусируемся на оптимизации метрики max@k — непрерывного обобщения pass@k. Мы выводим несмещенную он-политическую оценку градиента для прямой оптимизации этой метрики. Кроме того, мы расширяем наши выводы для офф-политических обновлений — распространенного элемента современных алгоритмов RLVR, который позволяет повысить эффективность использования выборки. Экспериментально мы показываем, что наша цель эффективно оптимизирует метрику max@k в офф-политических сценариях, согласуя модель со стратегией вывода Best-of-N.
English
The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.
PDF201December 31, 2025