R3 : Modèles de récompense robustes et indépendants des grilles d'évaluation

papers.abstract

Les modèles de récompense sont essentiels pour aligner les sorties des modèles de langage sur les préférences humaines, mais les approches existantes manquent souvent à la fois de contrôlabilité et d'interprétabilité. Ces modèles sont généralement optimisés pour des objectifs étroits, limitant ainsi leur généralisabilité à des tâches en aval plus vastes. De plus, leurs sorties scalaires sont difficiles à interpréter sans raisonnement contextuel. Pour remédier à ces limitations, nous introduisons R3, un nouveau cadre de modélisation de récompense qui est indépendant des rubriques, généralisable à travers différentes dimensions d'évaluation, et qui fournit des attributions de scores interprétables et raisonnées. R3 permet une évaluation plus transparente et flexible des modèles de langage, soutenant un alignement robuste avec des valeurs humaines et des cas d'utilisation diversifiés. Nos modèles, données et code sont disponibles en open source à l'adresse suivante : https://github.com/rubricreward/r3.

English

Reward models are essential for aligning language model outputs with human preferences, yet existing approaches often lack both controllability and interpretability. These models are typically optimized for narrow objectives, limiting their generalizability to broader downstream tasks. Moreover, their scalar outputs are difficult to interpret without contextual reasoning. To address these limitations, we introduce R3, a novel reward modeling framework that is rubric-agnostic, generalizable across evaluation dimensions, and provides interpretable, reasoned score assignments. R3 enables more transparent and flexible evaluation of language models, supporting robust alignment with diverse human values and use cases. Our models, data, and code are available as open source at https://github.com/rubricreward/r3

R3 : Modèles de récompense robustes et indépendants des grilles d'évaluation

R3: Robust Rubric-Agnostic Reward Models

papers.abstract

Support