C2: Modelagem de Recompensa Aumentada por Rúbrica Escalável a partir de Preferências Binárias

Resumo

A verificação aumentada por rubricas orienta os modelos de recompensa com critérios de avaliação explícitos, produzindo julgamentos mais confiáveis do que a verificação por modelo único. No entanto, a maioria dos métodos existentes requer anotações de rubricas dispendiosas, limitando a escalabilidade. Além disso, descobrimos que a geração de rubricas é vulnerável a uma falha de cooperação; rubricas de baixa qualidade induzem ativamente os modelos de recompensa ao erro em vez de ajudar. Inspirados pelo princípio da comunicação cooperativa, propomos a modelagem de recompensa Cooperativa mas Crítica (C2), uma estrutura que melhora significativamente os julgamentos do modelo de recompensa ao fazer com que este colabore criticamente com um gerador de rubricas treinado apenas a partir de preferências binárias. No C2, sintetizamos pares de rubricas úteis e enganosas medindo como cada rubrica desloca o modelo de recompensa para mais perto ou para mais longe da preferência correta. Usando esses pares contrastantes, treinamos um gerador de rubricas cooperativo para propor rubricas úteis e um verificador crítico para avaliar a validade da rubrica antes de fazer seu julgamento, seguindo apenas as rubricas que considera úteis no momento da inferência. O C2 supera os modelos de recompensa baseados em raciocínio treinados nas mesmas preferências binárias, com ganhos de até 6,5 pontos no RM-Bench e 6,0 pontos na taxa de vitória controlada por comprimento no AlpacaEval 2.0. Sem anotações externas de rubricas, o C2 permite que um modelo de recompensa de 8B atinja um desempenho equivalente ao obtido com rubricas de um modelo 4 vezes maior. No geral, nosso trabalho demonstra que eliciar uma cooperação deliberada na verificação aumentada por rubricas torna os modelos de recompensa mais confiáveis de forma escalável.

English

Rubric-augmented verification guides reward models with explicit evaluation criteria, yielding more reliable judgments than single-model verification. However, most existing methods require costly rubric annotations, limiting scalability. Moreover, we find that rubric generation is vulnerable to a failure of cooperation; low-quality rubrics actively mislead reward models rather than help. Inspired by the principle of cooperative communication, we propose Cooperative yet Critical reward modeling (C2), a framework that significantly improves reward model judgments by having the reward model critically collaborate with a rubric generator trained solely from binary preferences. In C2, we synthesize helpful and misleading rubric pairs by measuring how each rubric shifts the reward model toward or away from the correct preference. Using these contrastive pairs, we train a cooperative rubric generator to propose helpful rubrics, and a critical verifier to assess rubric validity before making its judgment, following only rubrics it deems helpful at inference time. C2 outperforms reasoning reward models trained on the same binary preferences, with gains of up to 6.5 points on RM-Bench and 6.0 points length-controlled win rate on AlpacaEval 2.0. Without external rubric annotations, C2 enables an 8B reward model to match performance achieved with rubrics from a 4times larger model. Overall, our work demonstrates that eliciting deliberate cooperation in rubric-augmented verification makes reward models more trustworthy in a scalable way.

C2: Modelagem de Recompensa Aumentada por Rúbrica Escalável a partir de Preferências Binárias

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

Resumo

Support