RubricHub: un dataset di rubriche completo e altamente discriminativo tramite generazione automatica da grossolana a fine
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
Autori: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha guidato progressi sostanziali in domini ad alta intensità di ragionamento come la matematica. Tuttavia, ottimizzare la generazione aperta rimane una sfida a causa della mancanza di una verità di base. Sebbene la valutazione basata su rubriche offra un proxy strutturato per la verifica, i metodi esistenti soffrono di colli di bottiglia di scalabilità e criteri grossolani, risultando in un effetto di saturazione della supervisione. Per affrontare questo problema, proponiamo un framework automatizzato di Generazione di Rubriche da Grossolano a Fine. Sinergizzando sintesi guidata da principi, aggregazione multi-modello ed evoluzione della difficoltà, il nostro approccio produce criteri completi e altamente discriminativi in grado di cogliere le sfumature sottili. Basandoci su questo framework, introduciamo RubricHub, un dataset su larga scala (circa 110k) e multi-dominio. Ne validiamo l'utilità attraverso una pipeline di post-addestramento in due stadi che comprende Fine-Tuning con Campionamento per Reiezione Basato su Rubrica (RuFT) e Reinforcement Learning (RuRL). I risultati sperimentali dimostrano che RubricHub sblocca miglioramenti prestazionali significativi: il nostro modello Qwen3-14B post-addestrato raggiunge risultati allo stato dell'arte (SOTA) su HealthBench (69.3), superando modelli proprietari all'avanguardia come GPT-5. Il codice e i dati saranno rilasciati a breve.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.