RubricHub: Ein umfassender und hochgradig diskriminativer Rubrik-Datensatz durch automatisierte grob- bis feingranulare Generierung
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
papers.authors: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat erhebliche Fortschritte in reasoning-intensiven Domänen wie der Mathematik vorangetrieben. Die Optimierung offener Generierungsaufgaben bleibt jedoch aufgrund fehlender Ground-Truth-Daten eine Herausforderung. Während rubrikbasierte Evaluation einen strukturierten Proxy für die Verifizierung bietet, leiden bestehende Methoden unter Skalierbarkeitsengpässen und grobkörnigen Kriterien, was zu einem Supervision-Ceiling-Effekt führt. Um dies zu adressieren, schlagen wir einen automatisierten Coarse-to-Fine-Rubric-Generation-Ansatz vor. Durch die Synergie von prinzipiengeleiteter Synthese, Multi-Modell-Aggregation und Difficulty Evolution erzeugt unser Ansatz umfassende und hochgradig diskriminative Kriterien, die feine Nuancen erfassen können. Aufbauend auf diesem Framework stellen wir RubricHub vor, einen großvolumigen (~110k) und domänenübergreifenden Datensatz. Wir validieren seinen Nutzen durch eine zweistufige Post-Training-Pipeline, bestehend aus Rubric-based Rejection Sampling Fine-Tuning (RuFT) und Reinforcement Learning (RuRL). Experimentelle Ergebnisse zeigen, dass RubricHub signifikante Leistungssteigerungen ermöglicht: Unser post-trainiertes Qwen3-14B erzielt State-of-the-Art (SOTA) Ergebnisse auf HealthBench (69.3) und übertrifft damit proprietäre Frontier-Modelle wie GPT-5. Code und Daten werden in Kürze veröffentlicht.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.