WildReward: 실제 인간 상호작용 데이터로부터 보상 모델 학습하기
WildReward: Learning Reward Models from In-the-Wild Human Interactions
February 9, 2026
저자: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li
cs.AI
초록
보상 모델(RM)은 대규모 언어 모델(LLM) 훈련에 있어 핵심적이지만, 일반적으로 대규모 인간 주석 선호도 쌍에 의존합니다. LLM의 광범위한 배포와 함께, 실제 상호작용 환경에서 암묵적 보상 신호의 풍부한 원천이 등장했습니다. 이로 인해 '실제 상호작용 데이터로부터 직접 보상 모델을 개발할 수 있을까?'라는 의문이 제기됩니다. 본 연구에서는 WildChat을 상호작용 원천으로 채택하고 신뢰할 수 있는 인간 피드백을 추출하는 파이프라인을 제안하여, 선호도 쌍 없이 직접 사용자 피드백에 대한 순서형 회귀를 통해 WildReward를 훈련시키는 데 사용할 186k개의 고품질 인스턴스를 생성함으로써 이러한 가능성을 탐구합니다. 광범위한 실험을 통해 WildReward가 기존 보상 모델과 비교하여 견줄 만하거나 오히려 우수한 성능을 달성하며, 향상된 보정 및 교차 샘플 일관성을 보여줍니다. 또한 WildReward가 사용자 다양성으로부터 직접 이점을 얻으며, 더 많은 사용자가 더 강력한 보상 모델로 이어진다는 점을 관찰했습니다. 마지막으로 WildReward를 온라인 DPO 훈련에 적용했을 때 다양한 작업에서 상당한 개선이 관찰되었습니다. 코드와 데이터는 https://github.com/THU-KEG/WildReward에서 공개됩니다.
English
Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.