탐색 병목 현상 극복: 일반적인 LLM 추론을 위한 루브릭 기반 강화 학습
Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
August 23, 2025
저자: Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전은 추론 능력의 발현을 촉진하기 위한 강화 학습(RL)의 잠재력을 강조해 왔습니다. 이러한 고무적인 결과에도 불구하고, RL의 개선이 고품질 샘플로부터의 학습에 의존하는 반면, 그러한 샘플의 탐색은 LLM의 본질적인 한계에 의해 제한된다는 근본적인 딜레마가 여전히 존재합니다. 이는 효과적으로 탐색할 수 없는 것은 학습할 수도 없다는 바람직하지 않은 순환을 만들어냅니다. 본 연구에서는 일반적인 LLM 추론을 위한 탐색 병목 현상을 해결하기 위해 새로운 교육적 스캐폴딩 프레임워크인 Rubric-Scaffolded Reinforcement Learning(RuscaRL)을 제안합니다. 구체적으로, RuscaRL은 체크리스트 스타일의 루브릭을 (1) 롤아웃 생성 중 탐색을 위한 명시적 스캐폴딩으로 도입하여, 다양한 고품질 응답을 유도하기 위해 작업 지침 내에서 외부 지침으로 다양한 루브릭을 제공합니다. 이 지침은 시간이 지남에 따라 점차 감소되며, 모델이 기본 추론 패턴을 내재화하도록 장려합니다. (2) 모델 훈련 중 활용을 위한 검증 가능한 보상으로, 루브릭을 참조로 하여 강력한 LLM-as-a-Judge 점수를 얻을 수 있게 함으로써 일반적인 추론 작업에서 효과적인 RL을 가능하게 합니다. 광범위한 실험을 통해 제안된 RuscaRL이 다양한 벤치마크에서 우수성을 입증하며, best-of-N 평가 하에서 추론 경계를 효과적으로 확장함을 보여줍니다. 특히, RuscaRL은 HealthBench-500에서 Qwen-2.5-7B-Instruct의 점수를 23.6에서 50.3으로 크게 향상시켜 GPT-4.1을 능가했습니다. 또한, Qwen3-30B-A3B-Instruct에 대한 미세 조정 변형은 HealthBench-500에서 61.1을 달성하여 OpenAI-o3를 포함한 주요 LLM들을 능가했습니다.
English
Recent advances in Large Language Models (LLMs) have underscored the
potential of Reinforcement Learning (RL) to facilitate the emergence of
reasoning capabilities. Despite the encouraging results, a fundamental dilemma
persists as RL improvement relies on learning from high-quality samples, yet
the exploration for such samples remains bounded by the inherent limitations of
LLMs. This, in effect, creates an undesirable cycle in which what cannot be
explored cannot be learned. In this work, we propose Rubric-Scaffolded
Reinforcement Learning (RuscaRL), a novel instructional scaffolding framework
designed to break the exploration bottleneck for general LLM reasoning.
Specifically, RuscaRL introduces checklist-style rubrics as (1) explicit
scaffolding for exploration during rollout generation, where different rubrics
are provided as external guidance within task instructions to steer diverse
high-quality responses. This guidance is gradually decayed over time,
encouraging the model to internalize the underlying reasoning patterns; (2)
verifiable rewards for exploitation during model training, where we can obtain
robust LLM-as-a-Judge scores using rubrics as references, enabling effective RL
on general reasoning tasks. Extensive experiments demonstrate the superiority
of the proposed RuscaRL across various benchmarks, effectively expanding
reasoning boundaries under the best-of-N evaluation. Notably, RuscaRL
significantly boosts Qwen-2.5-7B-Instruct from 23.6 to 50.3 on HealthBench-500,
surpassing GPT-4.1. Furthermore, our fine-tuned variant on
Qwen3-30B-A3B-Instruct achieves 61.1 on HealthBench-500, outperforming leading
LLMs including OpenAI-o3.