WildReward: Apprendimento di Modelli di Ricompensa da Interazioni Umane in Ambienti Reali

Abstract

I modelli di ricompensa (RMs) sono cruciali per l'addestramento di grandi modelli linguistici (LLMs), ma si basano tipicamente su coppie di preferenze annotate su larga scala da esseri umani. Con il diffuso impiego degli LLMs, le interazioni in contesti reali sono emerse come una ricca fonte di segnali impliciti di ricompensa. Ciò solleva la questione: possiamo sviluppare modelli di ricompensa direttamente dalle interazioni in contesti reali? In questo lavoro, esploriamo questa possibilità adottando WildChat come fonte di interazione e proponendo una pipeline per estrarre feedback umano affidabile, ottenendo 186k istanze di alta qualità per addestrare WildReward tramite regressione ordinale direttamente sul feedback degli utenti, senza coppie di preferenze. Esperimenti estensivi dimostrano che WildReward raggiunge prestazioni comparabili o addirittura superiori rispetto ai modelli di ricompensa convenzionali, con una calibrazione e una consistenza cross-campione migliorate. Osserviamo inoltre che WildReward beneficia direttamente dalla diversità degli utenti, dove un numero maggiore di utenti produce modelli di ricompensa più robusti. Infine, applichiamo WildReward all'addestramento DPO online e osserviamo miglioramenti significativi in varie attività. Codice e dati sono rilasciati su https://github.com/THU-KEG/WildReward.

English

Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.

WildReward: Apprendimento di Modelli di Ricompensa da Interazioni Umane in Ambienti Reali

WildReward: Learning Reward Models from In-the-Wild Human Interactions

Abstract

Support