RubricHub: Исчерпывающий и высокодискриминативный набор данных рубрик, созданный с помощью автоматизированной генерации по принципу «от общего к частному»
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
Авторы: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) позволило достичь значительного прогресса в областях, требующих интенсивных рассуждений, таких как математика. Однако оптимизация генерации открытого текста остается сложной задачей из-за отсутствия эталонных данных. Хотя рубричное оценивание предлагает структурированный прокси для верификации, существующие методы страдают от проблем масштабируемости и грубых критериев, что приводит к эффекту потолка supervision. Для решения этой проблемы мы предлагаем автоматизированную систему генерации рубрик «от грубого к точному». Благодаря синергии принципиально-ориентированного синтеза, агрегации нескольких моделей и эволюции сложности, наш подход создает всеобъемлющие и высоко дискриминативные критерии, способные улавливать тонкие нюансы. На основе этого фреймворка мы представляем RubricHub — крупномасштабный (∼110k) мультидоменный набор данных. Мы проверяем его полезность с помощью двухэтапного пайплайна пост-обучения, включающего тонкую настройку с отбором по отклонению на основе рубрик (RuFT) и обучение с подкреплением (RuRL). Результаты экспериментов демонстрируют, что RubricHub обеспечивает значительный прирост производительности: наша дообученная модель Qwen3-14B достигает state-of-the-art (SOTA) результатов на HealthBench (69.3), превосходя проприетарные фронтирные модели, такие как GPT-5. Код и данные будут выпущены в ближайшее время.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.