RubricHub: 自動的な段階的詳細化生成による包括的で識別性の高いルーブリックデータセット
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
著者: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は、数学のような推論集約的な領域で大きな進展をもたらしてきた。しかし、正解が存在しないオープンエンド生成の最適化は依然として課題である。ルーブリックに基づく評価は検証のための構造化された代理指標を提供するが、既存手法はスケーラビリティのボトルネックと粗い評価基準に悩まされ、指導効果の天井現象を引き起こしている。この問題に対処するため、我々は自動的な粗粒度から細粒度へのルーブリック生成フレームワークを提案する。原理駆動型合成、マルチモデル集約、難易度進化を協調させることで、微妙なニュアンスを捉え得る包括的かつ識別性の高い評価基準を生成する。このフレームワークに基づき、大規模(約110k)かつ複数領域にわたるデータセットRubricHubを導入する。その有用性を、ルーブリックに基づく棄却サンプリングによるファインチューニング(RuFT)と強化学習(RuRL)からなる2段階のポストトレーニングパイプラインを通じて検証する。実験結果では、RubricHubが顕著な性能向上をもたらすことを示す:ポストトレーニングを施したQwen3-14BはHealthBenchにおいて69.3を達成し、GPT-5のようなプロプライエタリなフロンティアモデルを凌駕する最先端(SOTA)結果を得た。コードとデータは近日公開予定である。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.