C2: Modelado de Recompensas Escalable Aumentado con Rúbricas a partir de Preferencias Binarias

Resumen

La verificación aumentada con rúbricas guía a los modelos de recompensa mediante criterios de evaluación explícitos, produciendo juicios más fiables que la verificación con un único modelo. Sin embargo, la mayoría de los métodos existentes requieren costosas anotaciones de rúbricas, lo que limita su escalabilidad. Además, encontramos que la generación de rúbricas es vulnerable a un fallo de cooperación; las rúbricas de baja calidad desorientan activamente a los modelos de recompensa en lugar de ayudarles. Inspirados por el principio de comunicación cooperativa, proponemos el modelado de recompensas Cooperativo pero Crítico (C2), un marco que mejora significativamente los juicios del modelo de recompensa haciendo que este colabore críticamente con un generador de rúbricas entrenado únicamente a partir de preferencias binarias. En C2, sintetizamos pares de rúbricas útiles y engañosas midiendo cómo cada rúbrica desplaza al modelo de recompensa hacia o lejos de la preferencia correcta. Utilizando estos pares contrastivos, entrenamos un generador de rúbricas cooperativo para proponer rúbricas útiles, y un verificador crítico para evaluar la validez de la rúbrica antes de emitir su juicio, siguiendo solo las rúbricas que considera útiles en el momento de la inferencia. C2 supera a los modelos de recompensa basados en razonamiento entrenados con las mismas preferencias binarias, con mejoras de hasta 6.5 puntos en RM-Bench y una tasa de victoria controlada por longitud 6.0 puntos mayor en AlpacaEval 2.0. Sin anotaciones externas de rúbricas, C2 permite que un modelo de recompensa de 8B iguale el rendimiento logrado con rúbricas de un modelo 4 veces más grande. En general, nuestro trabajo demuestra que elicitar una cooperación deliberada en la verificación aumentada con rúbricas hace que los modelos de recompensa sean más confiables de manera escalable.

English

Rubric-augmented verification guides reward models with explicit evaluation criteria, yielding more reliable judgments than single-model verification. However, most existing methods require costly rubric annotations, limiting scalability. Moreover, we find that rubric generation is vulnerable to a failure of cooperation; low-quality rubrics actively mislead reward models rather than help. Inspired by the principle of cooperative communication, we propose Cooperative yet Critical reward modeling (C2), a framework that significantly improves reward model judgments by having the reward model critically collaborate with a rubric generator trained solely from binary preferences. In C2, we synthesize helpful and misleading rubric pairs by measuring how each rubric shifts the reward model toward or away from the correct preference. Using these contrastive pairs, we train a cooperative rubric generator to propose helpful rubrics, and a critical verifier to assess rubric validity before making its judgment, following only rubrics it deems helpful at inference time. C2 outperforms reasoning reward models trained on the same binary preferences, with gains of up to 6.5 points on RM-Bench and 6.0 points length-controlled win rate on AlpacaEval 2.0. Without external rubric annotations, C2 enables an 8B reward model to match performance achieved with rubrics from a 4times larger model. Overall, our work demonstrates that eliciting deliberate cooperation in rubric-augmented verification makes reward models more trustworthy in a scalable way.

C2: Modelado de Recompensas Escalable Aumentado con Rúbricas a partir de Preferencias Binarias

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

Resumen

Support