Knapsack RL: Desbloqueando a Exploração de LLMs por meio da Otimização da Alocação de Orçamento
Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation
September 30, 2025
Autores: Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) podem se autoaperfeiçoar por meio de aprendizado por reforço, onde geram trajetórias para explorar e descobrir soluções melhores. No entanto, esse processo de exploração é computacionalmente caro, frequentemente forçando os métodos atuais a atribuir orçamentos limitados de exploração para cada tarefa. Essa alocação uniforme cria casos problemáticos: tarefas fáceis consistentemente têm sucesso, enquanto tarefas difíceis consistentemente falham, ambas produzindo gradientes zero durante as atualizações de treinamento para o amplamente utilizado Group Relative Policy Optimization (GRPO). Abordamos esse problema sob a perspectiva da alocação de orçamento de exploração. Ao ver a exploração de cada tarefa como um "item" com um "valor" e "custo" distintos, estabelecemos uma conexão com o clássico problema da mochila. Essa formulação nos permite derivar uma regra de atribuição ótima que distribui recursos de forma adaptativa com base no status atual de aprendizado do modelo. Quando aplicado ao GRPO, nosso método aumenta a proporção efetiva de gradientes de política não zero em 20-40% durante o treinamento. Funcionando como um "almoço grátis" computacional, nossa abordagem pode realocar orçamentos de exploração de tarefas onde o aprendizado está saturado para aquelas onde ele é mais impactante. Isso permite orçamentos significativamente maiores (por exemplo, 93 rollouts) para problemas especialmente desafiadores, que seriam proibitivos computacionalmente sob uma alocação uniforme. Essas melhorias se traduzem em ganhos significativos em benchmarks de raciocínio matemático, com melhorias médias de 2-4 pontos e ganhos máximos de 9 pontos em tarefas específicas. Notavelmente, alcançar desempenho comparável com a alocação homogênea tradicional exigiria cerca de 2x os recursos computacionais.
English
Large Language Models (LLMs) can self-improve through reinforcement learning,
where they generate trajectories to explore and discover better solutions.
However, this exploration process is computationally expensive, often forcing
current methods to assign limited exploration budgets to each task. This
uniform allocation creates problematic edge cases: easy tasks consistently
succeed while difficult tasks consistently fail, both producing zero gradients
during training updates for the widely used Group Relative Policy Optimization
(GRPO). We address this problem from the lens of exploration budget allocation.
Viewing each task's exploration as an "item" with a distinct "value" and
"cost", we establish a connection to the classical knapsack problem. This
formulation allows us to derive an optimal assignment rule that adaptively
distributes resources based on the model's current learning status. When
applied to GRPO, our method increases the effective ratio of non-zero policy
gradients by 20-40% during training. Acting as a computational "free lunch",
our approach could reallocate exploration budgets from tasks where learning is
saturated to those where it is most impactful. This enables significantly
larger budgets (e.g., 93 rollouts) for especially challenging problems, which
would be computationally prohibitive under a uniform allocation. These
improvements translate to meaningful gains on mathematical reasoning
benchmarks, with average improvements of 2-4 points and peak gains of 9 points
on specific tasks. Notably, achieving comparable performance with traditional
homogeneous allocation would require about 2x the computational resources.