CoBA-RL: Assegnazione di Budget Orientata alle Capacità per l'Apprendimento per Rinforzo negli LLM

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio chiave per potenziare il ragionamento dei LLM. Tuttavia, framework standard come l'Group Relative Policy Optimization (GRPO) tipicamente impiegano un budget di rollout uniforme, portando a inefficienze nelle risorse. Inoltre, i metodi adattativi esistenti spesso si basano su metriche a livello di istanza, come i tassi di superamento dei task, non riuscendo a catturare lo stato di apprendimento dinamico del modello. Per affrontare queste limitazioni, proponiamo CoBA-RL, un algoritmo di reinforcement learning progettato per allocare in modo adattivo i budget di rollout in base all'evoluzione delle capacità del modello. Nello specifico, CoBA-RL utilizza una funzione valore orientata alle capacità per mappare i task ai loro potenziali guadagni addestrativi e impiega una strategia greedy basata su heap per calibrare efficientemente la distribuzione delle risorse computazionali verso i campioni con alto valore addestrativo. Esperimenti estensivi dimostrano che il nostro approccio orchestra efficacemente il compromesso tra esplorazione e sfruttamento, fornendo miglioramenti generalizzati e consistenti su molteplici benchmark impegnativi. Questi risultati sottolineano che quantificare il valore addestrativo dei campioni e ottimizzare l'allocazione del budget sono cruciali per far progredire l'efficienza del post-addestramento dei LLM.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key approach for enhancing LLM reasoning.However, standard frameworks like Group Relative Policy Optimization (GRPO) typically employ a uniform rollout budget, leading to resource inefficiency. Moreover, existing adaptive methods often rely on instance-level metrics, such as task pass rates, failing to capture the model's dynamic learning state. To address these limitations, we propose CoBA-RL, a reinforcement learning algorithm designed to adaptively allocate rollout budgets based on the model's evolving capability. Specifically, CoBA-RL utilizes a Capability-Oriented Value function to map tasks to their potential training gains and employs a heap-based greedy strategy to efficiently self-calibrate the distribution of computational resources to samples with high training value. Extensive experiments demonstrate that our approach effectively orchestrates the trade-off between exploration and exploitation, delivering consistent generalization improvements across multiple challenging benchmarks. These findings underscore that quantifying sample training value and optimizing budget allocation are pivotal for advancing LLM post-training efficiency.

CoBA-RL: Assegnazione di Budget Orientata alle Capacità per l'Apprendimento per Rinforzo negli LLM

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

Abstract

Support