Knapsack RL: Ontsluiting van exploratie van LLM's via optimalisatie van budgettoewijzing
Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation
September 30, 2025
Auteurs: Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) kunnen zichzelf verbeteren via reinforcement learning,
waarbij ze trajecten genereren om te verkennen en betere oplossingen te ontdekken.
Dit verkenningsproces is echter rekenkundig kostbaar, waardoor huidige methoden vaak
gedwongen zijn om beperkte verkenningsbudgetten toe te wijzen aan elke taak. Deze
uniforme toewijzing creëert problematische randgevallen: eenvoudige taken slagen
consistent terwijl moeilijke taken consistent falen, wat beide nulgradiënten oplevert
tijdens trainingsupdates voor het veelgebruikte Group Relative Policy Optimization
(GRPO). Wij benaderen dit probleem vanuit het perspectief van verkenningsbudgettoewijzing.
Door de verkenning van elke taak te zien als een "item" met een specifieke "waarde" en
"kosten", leggen we een verband met het klassieke knapzakprobleem. Deze formulering
stelt ons in staat om een optimale toewijzingsregel af te leiden die adaptief middelen
verdeelt op basis van de huidige leerstatus van het model. Wanneer toegepast op GRPO,
verhoogt onze methode de effectieve verhouding van niet-nulbeleidsgradiënten met 20-40%
tijdens de training. Als een rekenkundige "gratis lunch" kan onze aanpak verkenningsbudgetten
herverdelen van taken waar het leren verzadigd is naar taken waar het het meest impactvol is.
Hierdoor kunnen aanzienlijk grotere budgetten (bijv. 93 rollouts) worden toegewezen aan
bijzonder uitdagende problemen, wat rekenkundig onhaalbaar zou zijn onder een uniforme toewijzing.
Deze verbeteringen vertalen zich naar betekenisvolle vooruitgang op wiskundige redeneerbenchmarks,
met gemiddelde verbeteringen van 2-4 punten en piekverbeteringen van 9 punten op specifieke taken.
Opmerkelijk is dat het bereiken van vergelijkbare prestaties met traditionele homogene toewijzing
ongeveer 2x de rekenkundige middelen zou vereisen.
English
Large Language Models (LLMs) can self-improve through reinforcement learning,
where they generate trajectories to explore and discover better solutions.
However, this exploration process is computationally expensive, often forcing
current methods to assign limited exploration budgets to each task. This
uniform allocation creates problematic edge cases: easy tasks consistently
succeed while difficult tasks consistently fail, both producing zero gradients
during training updates for the widely used Group Relative Policy Optimization
(GRPO). We address this problem from the lens of exploration budget allocation.
Viewing each task's exploration as an "item" with a distinct "value" and
"cost", we establish a connection to the classical knapsack problem. This
formulation allows us to derive an optimal assignment rule that adaptively
distributes resources based on the model's current learning status. When
applied to GRPO, our method increases the effective ratio of non-zero policy
gradients by 20-40% during training. Acting as a computational "free lunch",
our approach could reallocate exploration budgets from tasks where learning is
saturated to those where it is most impactful. This enables significantly
larger budgets (e.g., 93 rollouts) for especially challenging problems, which
would be computationally prohibitive under a uniform allocation. These
improvements translate to meaningful gains on mathematical reasoning
benchmarks, with average improvements of 2-4 points and peak gains of 9 points
on specific tasks. Notably, achieving comparable performance with traditional
homogeneous allocation would require about 2x the computational resources.