ChatPaper.aiChatPaper

WildReward: Erlernen von Belohnungsmodellen aus menschlichen Interaktionen in natürlicher Umgebung

WildReward: Learning Reward Models from In-the-Wild Human Interactions

February 9, 2026
papers.authors: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li
cs.AI

papers.abstract

Belohnungsmodelle (RMs) sind entscheidend für das Training großer Sprachmodelle (LLMs), basieren jedoch typischerweise auf umfangreichen, von Menschen annotierten Präferenzpaaren. Mit der weiten Verbreitung von LLMs sind Interaktionen in der Praxis als reichhaltige Quelle impliziter Belohnungssignale aufgetaucht. Dies wirft die Frage auf: Können wir Belohnungsmodelle direkt aus Interaktionen in der Praxis entwickeln? In dieser Arbeit untersuchen wir diese Möglichkeit, indem wir WildChat als Interaktionsquelle nutzen und eine Pipeline vorschlagen, um zuverlässiges menschliches Feedback zu extrahieren. Dies ergibt 186.000 hochwertige Instanzen für das Training von WildReward mittels ordinaler Regression direkt auf Basis von Nutzerfeedback, ohne Präferenzpaare. Umfangreiche Experimente zeigen, dass WildReward eine vergleichbare oder sogar überlegene Leistung im Vergleich zu konventionellen Belohnungsmodellen erzielt, mit verbesserter Kalibrierung und konsistenter Bewertung über verschiedene Stichproben hinweg. Wir beobachten zudem, dass WildReward direkt von der Nutzerdiversität profitiert, wobei mehr Nutzer zu stärkeren Belohnungsmodellen führen. Abschließend wenden wir WildReward auf Online-DPO-Training an und beobachten signifikante Verbesserungen bei verschiedenen Aufgaben. Code und Daten sind unter https://github.com/THU-KEG/WildReward verfügbar.
English
Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.
PDF32February 11, 2026