ChatPaper.aiChatPaper

R3: ロバストなルーブリック非依存報酬モデル

R3: Robust Rubric-Agnostic Reward Models

May 19, 2025
著者: David Anugraha, Zilu Tang, Lester James V. Miranda, Hanyang Zhao, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Wijaya, Genta Indra Winata
cs.AI

要旨

報酬モデルは、言語モデルの出力を人間の選好に合わせるために不可欠であるが、既存のアプローチでは制御性と解釈可能性の両方が不足していることが多い。これらのモデルは通常、狭い目的に対して最適化されており、より広範な下流タスクへの汎用性が制限されている。さらに、そのスカラー出力は文脈的な推論なしでは解釈が困難である。これらの課題に対処するため、我々はR3という新しい報酬モデリングフレームワークを提案する。R3はルーブリックに依存せず、評価次元を横断して汎用性があり、解釈可能で論理的なスコア割り当てを提供する。R3は、言語モデルの評価をより透明かつ柔軟に行うことを可能にし、多様な人間の価値観やユースケースとの堅牢な整合を支援する。我々のモデル、データ、およびコードは、https://github.com/rubricreward/r3 でオープンソースとして公開されている。
English
Reward models are essential for aligning language model outputs with human preferences, yet existing approaches often lack both controllability and interpretability. These models are typically optimized for narrow objectives, limiting their generalizability to broader downstream tasks. Moreover, their scalar outputs are difficult to interpret without contextual reasoning. To address these limitations, we introduce R3, a novel reward modeling framework that is rubric-agnostic, generalizable across evaluation dimensions, and provides interpretable, reasoned score assignments. R3 enables more transparent and flexible evaluation of language models, supporting robust alignment with diverse human values and use cases. Our models, data, and code are available as open source at https://github.com/rubricreward/r3

Summary

AI-Generated Summary

PDF71May 20, 2025