RubricHub: Um Conjunto de Dados de Rubricas Abrangente e Altamente Discriminativo via Geração Automática do Coarse-to-Fine

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem impulsionado progressos substanciais em domínios que exigem raciocínio intensivo, como a matemática. No entanto, a otimização da geração de texto aberto permanece um desafio devido à ausência de uma verdade fundamental. Embora a avaliação baseada em rubricas ofereça um proxy estruturado para verificação, os métodos existentes sofrem com gargalos de escalabilidade e critérios pouco refinados, resultando em um efeito de teto de supervisão. Para resolver isso, propomos um framework automatizado de Geração de Rubricas do Amplo ao Específico. Ao sinergizar síntese guiada por princípios, agregação multi-modelo e evolução de dificuldade, nossa abordagem produz critérios abrangentes e altamente discriminativos, capazes de capturar nuances sutis. Com base neste framework, introduzimos o RubricHub, um conjunto de dados em larga escala (~110k) e multi-domínio. Validamos sua utilidade por meio de um pipeline de pós-treinamento em dois estágios, compreendendo o Ajuste Fino por Amostragem de Rejeição Baseada em Rubrica (RuFT) e o Aprendizado por Reforço (RuRL). Resultados experimentais demonstram que o RubricHub desbloqueia ganhos significativos de desempenho: nosso modelo Qwen3-14B pós-treinado alcança resultados de estado da arte (SOTA) no HealthBench (69,3), superando modelos proprietários de fronteira, como o GPT-5. O código e os dados serão liberados em breve.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has driven substantial progress in reasoning-intensive domains like mathematics. However, optimizing open-ended generation remains challenging due to the lack of ground truth. While rubric-based evaluation offers a structured proxy for verification, existing methods suffer from scalability bottlenecks and coarse criteria, resulting in a supervision ceiling effect. To address this, we propose an automated Coarse-to-Fine Rubric Generation framework. By synergizing principle-guided synthesis, multi-model aggregation, and difficulty evolution, our approach produces comprehensive and highly discriminative criteria capable of capturing the subtle nuances. Based on this framework, we introduce RubricHub, a large-scale (sim110k) and multi-domain dataset. We validate its utility through a two-stage post-training pipeline comprising Rubric-based Rejection Sampling Fine-Tuning (RuFT) and Reinforcement Learning (RuRL). Experimental results demonstrate that RubricHub unlocks significant performance gains: our post-trained Qwen3-14B achieves state-of-the-art (SOTA) results on HealthBench (69.3), surpassing proprietary frontier models such as GPT-5. The code and data will be released soon.

RubricHub: Um Conjunto de Dados de Rubricas Abrangente e Altamente Discriminativo via Geração Automática do Coarse-to-Fine

RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation

Resumo

Support