Think-RM: 생성적 보상 모델에서 장기적 추론 가능하게 하기
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
저자: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
초록
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델을 인간의 선호도에 맞추는 강력한 사후 훈련 패러다임으로 자리 잡았습니다. RLHF의 핵심 과제는 정확한 보상 신호를 구성하는 것인데, 기존의 브래들리-테리 보상 모델(BT RM)은 데이터 크기와 범위에 대한 민감성과 보상 해킹에 대한 취약성으로 인해 어려움을 겪습니다. 생성적 보상 모델(GenRM)은 최종 보상에 이르는 사고의 연쇄(CoT)를 생성함으로써 더 견고한 대안을 제공합니다. 그러나 기존의 GenRM은 얕고 수직적으로 확장된 추론에 의존하여, 미묘하거나 복잡한(예: 추론 집약적인) 작업을 처리하는 능력이 제한적입니다. 또한, 이들의 쌍별 선호도 출력은 점수 기반 보상 신호를 요구하는 표준 RLHF 알고리즘과 호환되지 않습니다. 본 연구에서는 내부 사고 과정을 모델링함으로써 GenRM에서 장기적 추론을 가능하게 하는 Think-RM 훈련 프레임워크를 소개합니다. Think-RM은 구조화된 외부 제공 근거를 생성하는 대신, 자기 반성, 가설적 추론, 발산적 추론과 같은 고급 기능을 지원하는 유연하고 자기 주도적인 추론 흔적을 생성합니다. 이러한 추론 능력을 유도하기 위해, 먼저 장기 CoT 데이터에 대한 지도 미세 조정(SFT)을 통해 모델을 준비시킵니다. 그런 다음 규칙 기반 강화 학습(RL)을 통해 모델의 장기적 능력을 더욱 향상시킵니다. 또한, 점수 기반 보상 변환의 필요성을 없애고 Think-RM 출력을 더 효과적으로 활용할 수 있는 새로운 쌍별 RLHF 파이프라인을 제안합니다. 실험 결과, Think-RM은 RM-Bench에서 최첨단 성과를 달성하며 BT RM과 수직적으로 확장된 GenRM을 8% 앞섭니다. 우리의 쌍별 RLHF 파이프라인과 결합했을 때, 전통적인 접근 방식에 비해 우수한 최종 정책 성능을 보여줍니다.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary