Knapsack RL: Erschließung der Exploration von LLMs durch Optimierung der Budgetzuweisung
Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation
September 30, 2025
papers.authors: Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können sich durch Reinforcement Learning selbst verbessern, indem sie Trajektorien generieren, um bessere Lösungen zu erkunden und zu entdecken. Dieser Erkundungsprozess ist jedoch rechenintensiv, was aktuelle Methoden oft dazu zwingt, jedem Task ein begrenztes Erkundungsbudget zuzuweisen. Diese gleichmäßige Zuweisung führt zu problematischen Randfällen: einfache Tasks gelingen konsequent, während schwierige Tasks konsequent scheitern, was beide während der Trainingsupdates für das weit verbreitete Group Relative Policy Optimization (GRPO) zu Null-Gradienten führt. Wir adressieren dieses Problem aus der Perspektive der Erkundungsbudgetzuweisung. Indem wir die Erkundung jedes Tasks als ein „Item“ mit einem bestimmten „Wert“ und „Kosten“ betrachten, stellen wir eine Verbindung zum klassischen Rucksackproblem her. Diese Formulierung ermöglicht es uns, eine optimale Zuweisungsregel abzuleiten, die Ressourcen basierend auf dem aktuellen Lernstatus des Modells adaptiv verteilt. Bei der Anwendung auf GRPO erhöht unsere Methode das effektive Verhältnis von Nicht-Null-Policy-Gradienten während des Trainings um 20-40%. Als eine Art rechnerischer „Gratisbonus“ könnte unser Ansatz Erkundungsbudgets von Tasks, bei denen das Lernen gesättigt ist, zu solchen umverteilen, bei denen es am wirkungsvollsten ist. Dies ermöglicht deutlich größere Budgets (z.B. 93 Rollouts) für besonders herausfordernde Probleme, die bei einer gleichmäßigen Zuweisung rechenintensiv wären. Diese Verbesserungen führen zu signifikanten Fortschritten auf mathematischen Reasoning-Benchmarks, mit durchschnittlichen Verbesserungen von 2-4 Punkten und Spitzengewinnen von 9 Punkten bei bestimmten Tasks. Bemerkenswert ist, dass vergleichbare Leistungen mit traditioneller homogener Zuweisung etwa das Doppelte an Rechenressourcen erfordern würden.
English
Large Language Models (LLMs) can self-improve through reinforcement learning,
where they generate trajectories to explore and discover better solutions.
However, this exploration process is computationally expensive, often forcing
current methods to assign limited exploration budgets to each task. This
uniform allocation creates problematic edge cases: easy tasks consistently
succeed while difficult tasks consistently fail, both producing zero gradients
during training updates for the widely used Group Relative Policy Optimization
(GRPO). We address this problem from the lens of exploration budget allocation.
Viewing each task's exploration as an "item" with a distinct "value" and
"cost", we establish a connection to the classical knapsack problem. This
formulation allows us to derive an optimal assignment rule that adaptively
distributes resources based on the model's current learning status. When
applied to GRPO, our method increases the effective ratio of non-zero policy
gradients by 20-40% during training. Acting as a computational "free lunch",
our approach could reallocate exploration budgets from tasks where learning is
saturated to those where it is most impactful. This enables significantly
larger budgets (e.g., 93 rollouts) for especially challenging problems, which
would be computationally prohibitive under a uniform allocation. These
improvements translate to meaningful gains on mathematical reasoning
benchmarks, with average improvements of 2-4 points and peak gains of 9 points
on specific tasks. Notably, achieving comparable performance with traditional
homogeneous allocation would require about 2x the computational resources.