RubricHub : Un jeu de données de grilles d'évaluation complet et hautement discriminant grâce à une génération automatisée grossière à fine
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
papers.authors: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des progrès substantiels dans les domaines nécessitant un raisonnement poussé comme les mathématiques. Cependant, l'optimisation de la génération ouverte reste difficile en raison de l'absence de vérité terrain. Bien que l'évaluation par rubrique offre un proxy structuré pour la vérification, les méthodes existantes souffrent de goulots d'étranglement d'évolutivité et de critères grossiers, entraînant un effet de plafond de supervision. Pour résoudre ce problème, nous proposons un cadre automatisé de Génération de Rubriques du Grossier au Fin. En synergisant la synthèse guidée par des principes, l'agrégation multi-modèles et l'évolution de la difficulté, notre approche produit des critères complets et hautement discriminants capables de saisir les nuances subtiles. Sur la base de ce cadre, nous présentons RubricHub, un jeu de données à grande échelle (~110k) et multi-domaines. Nous validons son utilité grâce à un pipeline de post-formation en deux étapes comprenant le Réglage Fin par Échantillonnage de Rejet basé sur les Rubriques (RuFT) et l'Apprentissage par Renforcement (RuRL). Les résultats expérimentaux démontrent que RubricHub débloque des gains de performance significatifs : notre modèle Qwen3-14B post-formé obtient des résultats à la pointe de l'état de l'art (SOTA) sur HealthBench (69.3), surpassant des modèles propriétaires de pointe tels que GPT-5. Le code et les données seront bientôt publiés.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.