Pass@k Training voor het Adaptief Balanceren van Exploratie en Exploitatie van Grote Redeneermodellen

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR), dat doorgaans Pass@1 als beloning hanteert, heeft te maken gehad met problemen bij het balanceren van exploratie en exploitatie, wat beleidsmodellen ertoe aanzet conservatieve acties te verkiezen en te convergeren naar een lokaal optimum. Het identificeren van een geschikte beloningsmetriek is daarom cruciaal. Wat betreft eerder werk, hoewel Pass@k is gebruikt bij evaluatie, is de connectie met de exploratiecapaciteit van LLM's in RLVR grotendeels over het hoofd gezien. Om dit te onderzoeken, gebruiken we eerst Pass@k als beloning om het beleidsmodel te trainen (d.w.z. Pass@k Training), en observeren we de verbetering in de exploratiecapaciteit. Vervolgens leiden we een analytische oplossing af voor het voordeel van Pass@k Training, wat resulteert in een efficiënt en effectief proces. Op basis hiervan laat onze analyse zien dat exploratie en exploitatie niet inherent tegenstrijdige doelstellingen zijn, maar elkaar juist kunnen versterken. Bovendien houdt Pass@k Training met analytische afleiding in wezen in dat de voordelenfunctie direct wordt ontworpen. Geïnspireerd door dit, verkennen we voorlopig het ontwerp van voordelen voor RLVR, wat veelbelovende resultaten laat zien en een mogelijke toekomstige richting benadrukt.

English

Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as the reward to train the policy model (i.e., Pass@k Training), and observe the improvement on its exploration ability. Next, we derive an analytical solution for the advantage of Pass@k Training, leading to an efficient and effective process. Building on this, our analysis reveals that exploration and exploitation are not inherently conflicting objectives, while they can mutually enhance each other. Moreover, Pass@k Training with analytical derivation essentially involves directly designing the advantage function. Inspired by this, we preliminarily explore the advantage design for RLVR, showing promising results and highlighting a potential future direction.

Pass@k Training voor het Adaptief Balanceren van Exploratie en Exploitatie van Grote Redeneermodellen

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

Samenvatting

Support