ChatPaper.aiChatPaper

CoBA-RL: 대규모 언어 모델 강화학습을 위한 능력 기반 예산 할당

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

February 3, 2026
저자: Zhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu, Yu Yang, Tianhao Hu, Qi Gu, Hui Su, Xunliang Cai
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM 추론 성능 향상을 위한 핵심 접근법으로 부상했습니다. 그러나 GRPO(Group Relative Policy Optimization)와 같은 표준 프레임워크는 일반적으로 균일한 롤아웃 예산을 사용하여 자원 비효율성을 초래합니다. 더욱이 기존 적응형 방법들은 과제 통과율과 같은 인스턴스 수준 지표에 의존하는 경우가 많아, 모델의 동적인 학습 상태를 제대로 반영하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 모델의 진화하는 능력에 기반하여 롤아웃 예산을 적응적으로 할당하도록 설계된 강화 학습 알고리즘인 CoBA-RL을 제안합니다. 구체적으로, CoBA-RL은 능력 지향 가치 함수를 활용하여 과제를 해당 과제의 잠재적 학습 이득에 매핑하고, 힙 기반 탐욕 전략을 통해 높은 학습 가치를 지닌 샘플들에 계산 자원 분배를 효율적으로 자체 보정합니다. 폭넓은 실험을 통해 우리의 접근법이 탐험과 활용 사이의 균형을 효과적으로 조율하며, 여러 난제 벤치마크에서 일관된 일반화 성능 향상을 달성함을 입증했습니다. 이러한 결과는 샘플의 학습 가치를 정량화하고 예산 할당을 최적화하는 것이 LLM 후속 학습 효율성 향상에 핵심적임을 강조합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key approach for enhancing LLM reasoning.However, standard frameworks like Group Relative Policy Optimization (GRPO) typically employ a uniform rollout budget, leading to resource inefficiency. Moreover, existing adaptive methods often rely on instance-level metrics, such as task pass rates, failing to capture the model's dynamic learning state. To address these limitations, we propose CoBA-RL, a reinforcement learning algorithm designed to adaptively allocate rollout budgets based on the model's evolving capability. Specifically, CoBA-RL utilizes a Capability-Oriented Value function to map tasks to their potential training gains and employs a heap-based greedy strategy to efficiently self-calibrate the distribution of computational resources to samples with high training value. Extensive experiments demonstrate that our approach effectively orchestrates the trade-off between exploration and exploitation, delivering consistent generalization improvements across multiple challenging benchmarks. These findings underscore that quantifying sample training value and optimizing budget allocation are pivotal for advancing LLM post-training efficiency.
PDF321February 5, 2026