WildReward: Beloningsmodellen Leren uit Menselijke Interacties in de Vrije Natuur

Samenvatting

Beloningsmodellen (RMs) zijn cruciaal voor de training van grote taalmmodellen (LLM's), maar zijn doorgaans afhankelijk van grootschalige door mensen geannoteerde voorkeursparen. Met de wijdverspreide inzet van LLM's zijn interacties in de praktijk naar voren gekomen als een rijke bron van impliciete beloningssignalen. Dit roept de vraag op: Kunnen we beloningsmodellen rechtstreeks ontwikkelen vanuit praktijkinteracties? In dit werk verkennen we deze mogelijkheid door WildChat als interactiebron te gebruiken en stellen we een pijplijn voor om betrouwbare menselijke feedback te extraheren, wat resulteert in 186k hoogwaardige instanties voor het trainen van WildReward via ordinale regressie rechtstreeks op gebruikersfeedback, zonder voorkeursparen. Uitgebreide experimenten tonen aan dat WildReward vergelijkbare of zelfs betere prestaties bereikt in vergelijking met conventionele beloningsmodellen, met verbeterde kalibratie en consistentie tussen steekproeven. We observeren ook dat WildReward rechtstreeks profiteert van gebruikersdiversiteit, waarbij meer gebruikers sterkere beloningsmodellen opleveren. Ten slotte passen we WildReward toe op online DPO-training en observeren we significante verbeteringen bij diverse taken. Code en data zijn vrijgegeven op https://github.com/THU-KEG/WildReward.

English

Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.

WildReward: Beloningsmodellen Leren uit Menselijke Interacties in de Vrije Natuur

WildReward: Learning Reward Models from In-the-Wild Human Interactions

Samenvatting

Support