CoBA-RL : Allocation de budget axée sur les capacités pour l'apprentissage par renforcement dans les LLM
CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs
February 3, 2026
papers.authors: Zhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu, Yu Yang, Tianhao Hu, Qi Gu, Hui Su, Xunliang Cai
cs.AI
papers.abstract
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est apparu comme une approche clé pour améliorer le raisonnement des LLM. Cependant, les cadres standards comme l'Optimisation de Politique Relative par Groupe (GRPO) utilisent généralement un budget de déploiement uniforme, conduisant à une inefficacité des ressources. De plus, les méthodes adaptatives existantes reposent souvent sur des métriques au niveau de l'instance, comme les taux de réussite des tâches, sans parvenir à capturer l'état d'apprentissage dynamique du modèle. Pour résoudre ces limitations, nous proposons CoBA-RL, un algorithme d'apprentissage par renforcement conçu pour allouer de manière adaptative les budgets de déploiement en fonction de l'évolution des capacités du modèle. Plus précisément, CoBA-RL utilise une fonction de valeur axée sur les capacités pour mapper les tâches à leurs gains d'entraînement potentiels et emploie une stratégie gloutonne basée sur un tas pour auto-calibrer efficacement la distribution des ressources computationnelles vers les échantillons ayant une valeur d'entraînement élevée. Des expériences approfondies démontrent que notre approche orchestre efficacement le compromis entre exploration et exploitation, apportant des améliorations généralisées et constantes sur plusieurs benchmarks difficiles. Ces résultats soulignent que quantifier la valeur d'entraînement des échantillons et optimiser l'allocation du budget sont essentiels pour faire progresser l'efficacité du post-entraînement des LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key approach for enhancing LLM reasoning.However, standard frameworks like Group Relative Policy Optimization (GRPO) typically employ a uniform rollout budget, leading to resource inefficiency. Moreover, existing adaptive methods often rely on instance-level metrics, such as task pass rates, failing to capture the model's dynamic learning state. To address these limitations, we propose CoBA-RL, a reinforcement learning algorithm designed to adaptively allocate rollout budgets based on the model's evolving capability. Specifically, CoBA-RL utilizes a Capability-Oriented Value function to map tasks to their potential training gains and employs a heap-based greedy strategy to efficiently self-calibrate the distribution of computational resources to samples with high training value. Extensive experiments demonstrate that our approach effectively orchestrates the trade-off between exploration and exploitation, delivering consistent generalization improvements across multiple challenging benchmarks. These findings underscore that quantifying sample training value and optimizing budget allocation are pivotal for advancing LLM post-training efficiency.