WildReward: Обучение моделей вознаграждения на основе естественных взаимодействий с человеком
WildReward: Learning Reward Models from In-the-Wild Human Interactions
February 9, 2026
Авторы: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li
cs.AI
Аннотация
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении больших языковых моделей (Large Language Models, LLMs), однако обычно они полагаются на крупномасштабные пары предпочтений, размеченные человеком. С широким распространением LLM взаимодействия в реальных условиях стали богатым источником неявных сигналов вознаграждения. Это поднимает вопрос: можем ли мы разрабатывать модели вознаграждения непосредственно на основе взаимодействий в реальных условиях? В данной работе мы исследуем эту возможность, используя WildChat в качестве источника взаимодействий и предлагая конвейер для извлечения надежной обратной связи от пользователей. В результате было получено 186 тысяч высококачественных примеров для обучения модели WildReward с помощью порядковой регрессии напрямую на основе пользовательской обратной связи, без использования пар предпочтений. Многочисленные эксперименты демонстрируют, что WildReward достигает сопоставимой или даже превосходящей производительности по сравнению с традиционными моделями вознаграждения, обладая улучшенной калибровкой и согласованностью между различными выборками. Мы также наблюдаем, что WildReward напрямую выигрывает от разнообразия пользователей: большее количество пользователей позволяет строить более сильные модели вознаграждения. Наконец, мы применяем WildReward для онлайн-обучения с помощью DPO (Direct Preference Optimization) и наблюдаем значительное улучшение результатов в различных задачах. Код и данные доступны по адресу https://github.com/THU-KEG/WildReward.
English
Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.