꼬리를 쫓는 법: 대규모 언어 모델 사후 학습을 위한 효과적인 루브릭 기반 보상 모델링
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
저자: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
초록
강화 미세 조정(Reinforcement Fine-Tuning, RFT)은 종종 보상 과최적화(reward over-optimization) 문제에 직면합니다. 이는 정책 모델이 보상 신호를 악용하여 높은 점수를 달성하지만, 실제로는 저품질의 출력을 생성하는 현상을 의미합니다. 우리의 이론적 분석은 이러한 문제의 핵심이 높은 보상 영역에서의 보상 오설정(reward misspecification)에 있음을 보여줍니다. 즉, '우수한' 응답과 단순히 '훌륭한' 응답을 신뢰롭게 구분하지 못하는 것이 문제입니다. 이는 우리가 높은 보상 영역에 초점을 맞추도록 동기를 부여합니다. 그러나 기본 대형 언어 모델(LLM) 하에서는 이러한 꼬리 영역(tail region)의 예시가 부족합니다. 오프-정책(off-policy) 예시(예: 더 강력한 모델이나 재작성된 예시)는 상대적으로 쉽게 얻을 수 있지만, 이를 단순히 학습에 사용하면 우리가 정렬하려는 정책에 대해 오설정된 보상을 초래할 수 있습니다. 이를 해결하기 위해 우리는 루브릭 기반 보상(rubric-based rewards)을 연구합니다. 설계 상, 루브릭은 오프-정책 예시를 활용하면서도 그들의 부산물에 민감하지 않을 수 있습니다. 높은 보상 꼬리 영역을 포착하는 루브릭을 도출하기 위해, 우리는 훌륭하고 다양한 응답을 구분하는 것의 중요성을 강조하고, 이를 구현하기 위한 워크플로우를 소개합니다. 실험적으로, 루브릭 기반 보상이 보상 과최적화를 상당히 완화하고 효과적인 LLM 사후 학습 개선을 제공함을 입증합니다. 우리의 코드는 https://github.com/Jun-Kai-Zhang/rubrics.git 에서 확인할 수 있습니다.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .