Обучение с использованием Pass@k для адаптивного баланса между исследованием и использованием возможностей крупных моделей рассуждений
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
August 14, 2025
Авторы: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR), которое обычно использует Pass@1 в качестве награды, сталкивается с проблемами баланса между исследованием и эксплуатацией, что приводит к предпочтению консервативных действий и сходимости к локальному оптимуму. Поэтому определение подходящей метрики награды является крайне важным. В предыдущих работах, хотя Pass@k использовался для оценки, его связь с исследовательской способностью языковых моделей (LLM) в RLVR оставалась в значительной степени упущенной. Чтобы изучить этот вопрос, мы сначала используем Pass@k в качестве награды для обучения модели политики (т.е. обучение с использованием Pass@k) и наблюдаем улучшение её исследовательской способности. Затем мы выводим аналитическое решение для преимущества обучения с использованием Pass@k, что приводит к эффективному и результативному процессу. На основе этого наш анализ показывает, что исследование и эксплуатация не являются изначально конфликтующими целями, а могут взаимно усиливать друг друга. Более того, обучение с использованием Pass@k с аналитическим выводом по сути включает прямое проектирование функции преимущества. Вдохновлённые этим, мы предварительно исследуем проектирование преимущества для RLVR, демонстрируя многообещающие результаты и указывая на потенциальное направление для будущих исследований.
English
Reinforcement learning with verifiable rewards (RLVR), which typically adopts
Pass@1 as the reward, has faced the issues in balancing exploration and
exploitation, causing policies to prefer conservative actions, converging to a
local optimum. Identifying an appropriate reward metric is therefore crucial.
Regarding the prior work, although Pass@k has been used in evaluation, its
connection to LLM exploration ability in RLVR remains largely overlooked. To
investigate this, we first use Pass@k as the reward to train the policy model
(i.e., Pass@k Training), and observe the improvement on its
exploration ability. Next, we derive an analytical solution for the advantage
of Pass@k Training, leading to an efficient and effective process. Building on
this, our analysis reveals that exploration and exploitation are not inherently
conflicting objectives, while they can mutually enhance each other. Moreover,
Pass@k Training with analytical derivation essentially involves directly
designing the advantage function. Inspired by this, we preliminarily explore
the advantage design for RLVR, showing promising results and highlighting a
potential future direction.