Composition-RL: 검증 가능한 프롬프트 구성을 통한 대규모 언어 모델의 강화 학습
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
February 12, 2026
저자: Xin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI
초록
대규모 검증 가능 프롬프트는 검증 가능 보상 강화학습(RLVR)의 성공을 뒷받침하지만, 많은 정보성이 낮은 예시를 포함하고 추가 확장 비용이 높습니다. 최근 연구들은 롤아웃 통과율이 0인 어려운 프롬프트에 우선순위를 두어 제한된 훈련 데이터를 더 효과적으로 활용하는 데 집중하고 있습니다. 그러나 훈련이 진행됨에 따라 통과율이 1인 쉬운 프롬프트도 점점 더 흔해지면서 효과적인 데이터 크기가 줄어듭니다. 이를 완화하기 위해 본 연구에서는 통과율-1 프롬프트를 대상으로 제한된 검증 가능 프롬프트를 더 잘 활용하기 위한 간단하면서도 유용한 접근법인 Composition-RL을 제안합니다. 구체적으로, Composition-RL은 여러 문제를 자동으로 조합하여 새로운 검증 가능 질문을 생성하고, 이러한 조합형 프롬프트를 강화학습 훈련에 사용합니다. 4B부터 30B까지 다양한 모델 크기에서 진행한 폭넓은 실험을 통해 Composition-RL이 기존 데이터셋으로 훈련된 강화학습 대비 일관적으로 추론 능력을 향상시킴을 확인했습니다. 또한 조합 깊이를 점진적으로 증가시키는 커리큘럼 변형 Composition-RL을 통해 성능을 더욱 향상시킬 수 있었습니다. 더 나아가 Composition-RL은 서로 다른 도메인에서 추출한 프롬프트를 조합하여 더 효과적인 교차 도메인 강화학습을 가능하게 합니다. 코드, 데이터셋 및 모델은 https://github.com/XinXU-USTC/Composition-RL에서 이용 가능합니다.
English
Large-scale verifiable prompts underpin the success of Reinforcement Learning with Verifiable Rewards (RLVR), but they contain many uninformative examples and are costly to expand further. Recent studies focus on better exploiting limited training data by prioritizing hard prompts whose rollout pass rate is 0. However, easy prompts with a pass rate of 1 also become increasingly prevalent as training progresses, thereby reducing the effective data size. To mitigate this, we propose Composition-RL, a simple yet useful approach for better utilizing limited verifiable prompts targeting pass-rate-1 prompts. More specifically, Composition-RL automatically composes multiple problems into a new verifiable question and uses these compositional prompts for RL training. Extensive experiments across model sizes from 4B to 30B show that Composition-RL consistently improves reasoning capability over RL trained on the original dataset. Performance can be further boosted with a curriculum variant of Composition-RL that gradually increases compositional depth over training. Additionally, Composition-RL enables more effective cross-domain RL by composing prompts drawn from different domains. Codes, datasets, and models are available at https://github.com/XinXU-USTC/Composition-RL.