ChatPaper.aiChatPaper

R3: 강건한 루브릭-불가지론적 보상 모델

R3: Robust Rubric-Agnostic Reward Models

May 19, 2025
저자: David Anugraha, Zilu Tang, Lester James V. Miranda, Hanyang Zhao, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Wijaya, Genta Indra Winata
cs.AI

초록

보상 모델은 언어 모델의 출력을 인간의 선호와 일치시키는 데 필수적이지만, 기존 접근법은 통제 가능성과 해석 가능성 모두에서 부족한 경우가 많다. 이러한 모델들은 일반적으로 좁은 목표에 최적화되어 있어, 더 광범위한 다운스트림 작업으로의 일반화가 제한된다. 또한, 스칼라 형태의 출력은 맥락적 추론 없이는 해석하기 어렵다. 이러한 한계를 해결하기 위해, 우리는 루브릭에 구애받지 않고 평가 차원에 걸쳐 일반화 가능하며, 해석 가능하고 논리적인 점수 할당을 제공하는 새로운 보상 모델링 프레임워크인 R3를 소개한다. R3는 언어 모델의 평가를 더 투명하고 유연하게 가능하게 하여, 다양한 인간의 가치와 사용 사례와의 견고한 정렬을 지원한다. 우리의 모델, 데이터, 그리고 코드는 https://github.com/rubricreward/r3에서 오픈 소스로 제공된다.
English
Reward models are essential for aligning language model outputs with human preferences, yet existing approaches often lack both controllability and interpretability. These models are typically optimized for narrow objectives, limiting their generalizability to broader downstream tasks. Moreover, their scalar outputs are difficult to interpret without contextual reasoning. To address these limitations, we introduce R3, a novel reward modeling framework that is rubric-agnostic, generalizable across evaluation dimensions, and provides interpretable, reasoned score assignments. R3 enables more transparent and flexible evaluation of language models, supporting robust alignment with diverse human values and use cases. Our models, data, and code are available as open source at https://github.com/rubricreward/r3

Summary

AI-Generated Summary

PDF71May 20, 2025