R3 : Modèles de récompense robustes et indépendants des grilles d'évaluation
R3: Robust Rubric-Agnostic Reward Models
May 19, 2025
Auteurs: David Anugraha, Zilu Tang, Lester James V. Miranda, Hanyang Zhao, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Wijaya, Genta Indra Winata
cs.AI
Résumé
Les modèles de récompense sont essentiels pour aligner les sorties des modèles de langage sur les préférences humaines, mais les approches existantes manquent souvent à la fois de contrôlabilité et d'interprétabilité. Ces modèles sont généralement optimisés pour des objectifs étroits, limitant ainsi leur généralisabilité à des tâches en aval plus vastes. De plus, leurs sorties scalaires sont difficiles à interpréter sans raisonnement contextuel. Pour remédier à ces limitations, nous introduisons R3, un nouveau cadre de modélisation de récompense qui est indépendant des rubriques, généralisable à travers différentes dimensions d'évaluation, et qui fournit des attributions de scores interprétables et raisonnées. R3 permet une évaluation plus transparente et flexible des modèles de langage, soutenant un alignement robuste avec des valeurs humaines et des cas d'utilisation diversifiés. Nos modèles, données et code sont disponibles en open source à l'adresse suivante : https://github.com/rubricreward/r3.
English
Reward models are essential for aligning language model outputs with human
preferences, yet existing approaches often lack both controllability and
interpretability. These models are typically optimized for narrow objectives,
limiting their generalizability to broader downstream tasks. Moreover, their
scalar outputs are difficult to interpret without contextual reasoning. To
address these limitations, we introduce R3, a novel reward modeling framework
that is rubric-agnostic, generalizable across evaluation dimensions, and
provides interpretable, reasoned score assignments. R3 enables more transparent
and flexible evaluation of language models, supporting robust alignment with
diverse human values and use cases. Our models, data, and code are available as
open source at https://github.com/rubricreward/r3Summary
AI-Generated Summary