ChatPaper.aiChatPaper

다중 도메인 테스트 타임 스케일링을 위한 보상 모델 재고

Rethinking Reward Models for Multi-Domain Test-Time Scaling

October 1, 2025
저자: Dong Bok Lee, Seanie Lee, Sangwoo Park, Minki Kang, Jinheon Baek, Dongki Kim, Dominik Wagner, Jiongdao Jin, Heejun Lee, Tobias Bocklet, Jinyu Wang, Jingjing Fu, Sung Ju Hwang, Jiang Bia, Lei Song
cs.AI

초록

대규모 언어 모델(LLM)의 테스트 시점 확장성에 대한 신뢰도는 일반적으로 올바른 추론과 결함이 있는 논리를 구분하는 외부 검증기나 보상 모델을 통해 평가됩니다. 기존 연구에서는 주로 각 중간 추론 단계를 점수화하는 과정 보상 모델(PRM)이 최종 답변만 평가하는 결과 보상 모델(ORM)보다 성능이 우수하다고 가정했습니다. 이러한 관점은 주로 수학과 관련된 좁은 영역에서의 증거에 기반을 두고 있습니다. 우리는 14개의 다양한 도메인에서 네 가지 보상 모델 변형, 즉 판별적 ORM과 PRM(\DisORM, \DisPRM) 및 생성적 ORM과 PRM(\GenORM, \GenPRM)을 통합적으로 평가한 첫 번째 연구를 제시합니다. 기존의 통념과 달리, 우리는 (i) \DisORM이 \DisPRM과 동등한 성능을 보이고, (ii) \GenPRM이 경쟁력이 없으며, (iii) 전반적으로 \GenORM이 가장 강력하여 모든 테스트된 도메인에서 일관되게 상당한 성능 향상을 보인다는 사실을 발견했습니다. 우리는 이러한 결과를 PRM 스타일의 단계별 점수화가 LLM 자동 라벨링에서 상속된 라벨 노이즈를 포함하고, 자기 수정 추론을 포함한 긴 추론 경로를 평가하는 데 어려움을 겪기 때문으로 해석합니다. 우리의 이론적 분석은 단계별 집계가 추론 길이가 증가함에 따라 오류를 증폭시킨다는 것을 보여주며, 실험적 관찰도 이러한 효과를 확인합니다. 이러한 발견은 세밀한 감독이 항상 더 나은 것이라는 기존의 가정에 도전하고, 다중 도메인 배포를 위한 생성적 결과 검증을 지지합니다. 우리는 다중 도메인 설정에서의 향후 연구를 촉진하기 위해 코드, 데이터셋 및 체크포인트를 https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}}에 공개합니다.
English
The reliability of large language models (LLMs) during test-time scaling is often assessed with external verifiers or reward models that distinguish correct reasoning from flawed logic. Prior work generally assumes that process reward models (PRMs), which score every intermediate reasoning step, outperform outcome reward models (ORMs) that assess only the final answer. This view is based mainly on evidence from narrow, math-adjacent domains. We present the first unified evaluation of four reward model variants, discriminative ORM and PRM (\DisORM, \DisPRM) and generative ORM and PRM (\GenORM, \GenPRM), across 14 diverse domains. Contrary to conventional wisdom, we find that (i) \DisORM performs on par with \DisPRM, (ii) \GenPRM is not competitive, and (iii) overall, \GenORM is the most robust, yielding significant and consistent gains across every tested domain. We attribute this to PRM-style stepwise scoring, which inherits label noise from LLM auto-labeling and has difficulty evaluating long reasoning trajectories, including those involving self-correcting reasoning. Our theoretical analysis shows that step-wise aggregation compounds errors as reasoning length grows, and our empirical observations confirm this effect. These findings challenge the prevailing assumption that fine-grained supervision is always better and support generative outcome verification for multi-domain deployment. We publicly release our code, datasets, and checkpoints at https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} to facilitate future research in multi-domain settings.
PDF282February 7, 2026