ChatPaper.aiChatPaper

RubricHub: 자동화된 Coarse-to-Fine 생성 방식을 통한 포괄적이고 고도의 변별력을 갖춘 루브릭 데이터셋

RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation

January 13, 2026
저자: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI

초록

검증 가능한 보상 강화 학습(RLVR)은 수학과 같은 추론 집약적 영역에서 상당한 진전을 이끌어왔습니다. 그러나 근거 자료의 부재로 인해 개방형 생성 작업의 최적화는 여전히 과제로 남아 있습니다. 루브릭 기반 평가가 검증을 위한 구조화된 대리 지표를 제공하지만, 기존 방법은 확장성 병목 현상과 포괄적인 기준으로 인해 감독 한계 효과를 겪고 있습니다. 이를 해결하기 위해 우리는 자동화된 세분화 루브릭 생성 프레임워크를 제안합니다. 원칙 기반 합성, 다중 모델 집계, 난이도 진화를 결합한 우리의 접근법은 미묘한 뉘앙스를 포착할 수 있는 포괄적이고 높은 변별력을 지닌 기준을 생성합니다. 이 프레임워크를 기반으로 대규모(약 110k) 다중 도메인 데이터셋인 RubricHub를 소개합니다. 우리는 루브릭 기반 반응 샘플링 미세 조정(RuFT)과 강화 학습(RuRL)으로 구성된 2단계 사후 학습 파이프라인을 통해 그 유용성을 검증합니다. 실험 결과, RubricHub가 상당한 성능 향상을 가능하게 함을 보여줍니다: 사후 학습된 Qwen3-14B는 HealthBench(69.3)에서 GPT-5와 같은 독점 최첨단 모델을 능가하는 SOTA 성능을 달성했습니다. 코드와 데이터는 곧 공개될 예정입니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.
PDF252January 20, 2026