Knapsack RL: Erschließung der Exploration von LLMs durch Optimierung der Budgetzuweisung

papers.abstract

Große Sprachmodelle (LLMs) können sich durch Reinforcement Learning selbst verbessern, indem sie Trajektorien generieren, um bessere Lösungen zu erkunden und zu entdecken. Dieser Erkundungsprozess ist jedoch rechenintensiv, was aktuelle Methoden oft dazu zwingt, jedem Task ein begrenztes Erkundungsbudget zuzuweisen. Diese gleichmäßige Zuweisung führt zu problematischen Randfällen: einfache Tasks gelingen konsequent, während schwierige Tasks konsequent scheitern, was beide während der Trainingsupdates für das weit verbreitete Group Relative Policy Optimization (GRPO) zu Null-Gradienten führt. Wir adressieren dieses Problem aus der Perspektive der Erkundungsbudgetzuweisung. Indem wir die Erkundung jedes Tasks als ein „Item“ mit einem bestimmten „Wert“ und „Kosten“ betrachten, stellen wir eine Verbindung zum klassischen Rucksackproblem her. Diese Formulierung ermöglicht es uns, eine optimale Zuweisungsregel abzuleiten, die Ressourcen basierend auf dem aktuellen Lernstatus des Modells adaptiv verteilt. Bei der Anwendung auf GRPO erhöht unsere Methode das effektive Verhältnis von Nicht-Null-Policy-Gradienten während des Trainings um 20-40%. Als eine Art rechnerischer „Gratisbonus“ könnte unser Ansatz Erkundungsbudgets von Tasks, bei denen das Lernen gesättigt ist, zu solchen umverteilen, bei denen es am wirkungsvollsten ist. Dies ermöglicht deutlich größere Budgets (z.B. 93 Rollouts) für besonders herausfordernde Probleme, die bei einer gleichmäßigen Zuweisung rechenintensiv wären. Diese Verbesserungen führen zu signifikanten Fortschritten auf mathematischen Reasoning-Benchmarks, mit durchschnittlichen Verbesserungen von 2-4 Punkten und Spitzengewinnen von 9 Punkten bei bestimmten Tasks. Bemerkenswert ist, dass vergleichbare Leistungen mit traditioneller homogener Zuweisung etwa das Doppelte an Rechenressourcen erfordern würden.

English

Large Language Models (LLMs) can self-improve through reinforcement learning, where they generate trajectories to explore and discover better solutions. However, this exploration process is computationally expensive, often forcing current methods to assign limited exploration budgets to each task. This uniform allocation creates problematic edge cases: easy tasks consistently succeed while difficult tasks consistently fail, both producing zero gradients during training updates for the widely used Group Relative Policy Optimization (GRPO). We address this problem from the lens of exploration budget allocation. Viewing each task's exploration as an "item" with a distinct "value" and "cost", we establish a connection to the classical knapsack problem. This formulation allows us to derive an optimal assignment rule that adaptively distributes resources based on the model's current learning status. When applied to GRPO, our method increases the effective ratio of non-zero policy gradients by 20-40% during training. Acting as a computational "free lunch", our approach could reallocate exploration budgets from tasks where learning is saturated to those where it is most impactful. This enables significantly larger budgets (e.g., 93 rollouts) for especially challenging problems, which would be computationally prohibitive under a uniform allocation. These improvements translate to meaningful gains on mathematical reasoning benchmarks, with average improvements of 2-4 points and peak gains of 9 points on specific tasks. Notably, achieving comparable performance with traditional homogeneous allocation would require about 2x the computational resources.

Knapsack RL: Erschließung der Exploration von LLMs durch Optimierung der Budgetzuweisung

Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

papers.abstract

Support