ChatPaper.aiChatPaper

CoBA-RL:大規模言語モデルにおける強化学習のための能力指向予算配分

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

February 3, 2026
著者: Zhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu, Yu Yang, Tianhao Hu, Qi Gu, Hui Su, Xunliang Cai
cs.AI

要旨

検証可能な報酬による強化学習(RLVR)は、大規模言語モデルの推論能力を向上させる重要な手法として登場した。しかし、Group Relative Policy Optimization(GRPO)のような標準的なフレームワークでは、均一なロールアウト予算が採用されることが一般的であり、リソース効率の低下を招いている。さらに、既存の適応的手法はタスク合格率などのインスタンスレベルの指標に依存することが多く、モデルの動的な学習状態を捉えられないという課題がある。これらの制限に対処するため、本論文ではモデルの進化する能力に基づいてロールアウト予算を適応的に配分する強化学習アルゴリズムCoBA-RLを提案する。具体的には、CoBA-RLは能力指向価値関数を用いてタスクを潜在的な訓練利益にマッピングし、ヒープベースの貪欲戦略によって高訓練価値のサンプルへ計算リソースを効率的に自己調整する。大規模な実験により、本手法が探索と利用のトレードオフを効果的に調整し、複数の難易度の高いベンチマークで一貫した汎化性能の向上をもたらすことを実証した。これらの知見は、サンプルの訓練価値を定量化し予算配分を最適化することが、大規模言語モデルの学習後効率を革新する上で極めて重要であることを示唆している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key approach for enhancing LLM reasoning.However, standard frameworks like Group Relative Policy Optimization (GRPO) typically employ a uniform rollout budget, leading to resource inefficiency. Moreover, existing adaptive methods often rely on instance-level metrics, such as task pass rates, failing to capture the model's dynamic learning state. To address these limitations, we propose CoBA-RL, a reinforcement learning algorithm designed to adaptively allocate rollout budgets based on the model's evolving capability. Specifically, CoBA-RL utilizes a Capability-Oriented Value function to map tasks to their potential training gains and employs a heap-based greedy strategy to efficiently self-calibrate the distribution of computational resources to samples with high training value. Extensive experiments demonstrate that our approach effectively orchestrates the trade-off between exploration and exploitation, delivering consistent generalization improvements across multiple challenging benchmarks. These findings underscore that quantifying sample training value and optimizing budget allocation are pivotal for advancing LLM post-training efficiency.
PDF321February 5, 2026