Pass@k-Training zur adaptiven Balance zwischen Exploration und Exploitation großer Reasoning-Modelle
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
August 14, 2025
papers.authors: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
cs.AI
papers.abstract
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR), das typischerweise Pass@1 als Belohnung verwendet, stand vor der Herausforderung, Exploration und Exploitation auszubalancieren, was dazu führte, dass die Strategien konservative Aktionen bevorzugten und in einem lokalen Optimum konvergierten. Daher ist die Identifizierung einer geeigneten Belohnungsmetrik von entscheidender Bedeutung. In Bezug auf frühere Arbeiten wurde zwar Pass@k für die Bewertung verwendet, doch seine Verbindung zur Explorationsfähigkeit von LLMs in RLVR wurde weitgehend übersehen. Um dies zu untersuchen, verwenden wir zunächst Pass@k als Belohnung, um das Strategiemodell zu trainieren (d.h. Pass@k-Training), und beobachten die Verbesserung seiner Explorationsfähigkeit. Anschließend leiten wir eine analytische Lösung für den Vorteil des Pass@k-Trainings ab, was zu einem effizienten und effektiven Prozess führt. Aufbauend darauf zeigt unsere Analyse, dass Exploration und Exploitation nicht grundsätzlich widersprüchliche Ziele sind, sondern sich gegenseitig verstärken können. Darüber hinaus beinhaltet das Pass@k-Training mit analytischer Ableitung im Wesentlichen die direkte Gestaltung der Vorteilsfunktion. Inspiriert davon untersuchen wir vorläufig die Gestaltung des Vorteils für RLVR, zeigen vielversprechende Ergebnisse und heben eine potenzielle zukünftige Richtung hervor.
English
Reinforcement learning with verifiable rewards (RLVR), which typically adopts
Pass@1 as the reward, has faced the issues in balancing exploration and
exploitation, causing policies to prefer conservative actions, converging to a
local optimum. Identifying an appropriate reward metric is therefore crucial.
Regarding the prior work, although Pass@k has been used in evaluation, its
connection to LLM exploration ability in RLVR remains largely overlooked. To
investigate this, we first use Pass@k as the reward to train the policy model
(i.e., Pass@k Training), and observe the improvement on its
exploration ability. Next, we derive an analytical solution for the advantage
of Pass@k Training, leading to an efficient and effective process. Building on
this, our analysis reveals that exploration and exploitation are not inherently
conflicting objectives, while they can mutually enhance each other. Moreover,
Pass@k Training with analytical derivation essentially involves directly
designing the advantage function. Inspired by this, we preliminarily explore
the advantage design for RLVR, showing promising results and highlighting a
potential future direction.