RubricHub: Un Conjunto de Datos de Rúbricas Integral y Altamente Discriminativo mediante Generación Automática de Coarse-to-Fine
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation
January 13, 2026
Autores: Sunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha impulsado avances sustanciales en dominios que requieren razonamiento intensivo, como las matemáticas. Sin embargo, optimizar la generación de texto abierto sigue siendo un desafío debido a la falta de una verdad de referencia. Si bien la evaluación basada en rúbricas ofrece un proxy estructurado para la verificación, los métodos existentes adolecen de cuellos de botella de escalabilidad y criterios poco refinados, lo que resulta en un efecto de techo de supervisión. Para abordar esto, proponemos un marco automatizado de Generación de Rúbricas de Grueso a Fino. Al sinergizar la síntesis guiada por principios, la agregación multi-modelo y la evolución de la dificultad, nuestro enfoque produce criterios exhaustivos y altamente discriminatorios capaces de capturar los matices sutiles. Basándonos en este marco, presentamos RubricHub, un conjunto de datos a gran escala (~110k) y multi-dominio. Validamos su utilidad mediante un pipeline de post-entrenamiento en dos etapas que comprende el Fine-Tuning por Muestreo de Rechazo basado en Rúbricas (RuFT) y el Aprendizaje por Refuerzo (RuRL). Los resultados experimentales demuestran que RubricHub desbloquea mejoras de rendimiento significativas: nuestro modelo Qwen3-14B post-entrenado logra resultados de vanguardia (SOTA) en HealthBench (69.3), superando a modelos propietarios de última generación como GPT-5. El código y los datos se publicarán próximamente.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.