RubricHub: Een uitgebreide en hoogst discriminerende rubricdataset via geautomatiseerde generatie van grof naar fijn

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) heeft aanzienlijke vooruitgang geboekt in domeinen die intensief redeneren vereisen, zoals wiskunde. Het optimaliseren van open-eindgeneratie blijft echter een uitdaging vanwege het ontbreken van een grondwaarheid. Hoewel rubricagestuurde evaluatie een gestructureerde proxy voor verificatie biedt, kampen bestaande methoden met schaalbaarheidsproblemen en grove criteria, wat leidt tot een plafondeffect in de supervisie. Om dit aan te pakken, stellen we een geautomatiseerd Coarse-to-Fine Rubric Generation-framework voor. Door principegestuurde synthese, multi-modelaggregatie en moeilijkheidsevolutie te combineren, produceert onze aanpak uitgebreide en hoogst onderscheidende criteria die in staat zijn subtiele nuances te vangen. Gebaseerd op dit framework introduceren we RubricHub, een grootschalige (∼110k) en multidomein dataset. We valideren de bruikbaarheid ervan via een tweefasen post-trainingspijplijn bestaande uit Rubric-based Rejection Sampling Fine-Tuning (RuFT) en Versterkend Leren (RuRL). Experimentele resultaten tonen aan dat RubricHub significante prestatieverbeteringen mogelijk maakt: onze nageschoolde Qwen3-14B behaalt state-of-the-art (SOTA) resultaten op HealthBench (69.3), en overtreft daarmee propriëtaire frontier-modellen zoals GPT-5. De code en data zullen binnenkort worden vrijgegeven.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.

RubricHub: Een uitgebreide en hoogst discriminerende rubricdataset via geautomatiseerde generatie van grof naar fijn

RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation

Samenvatting

Support