ChatPaper.aiChatPaper

La modélisation de récompenses agentique : intégration des préférences humaines avec des signaux de vérifiabilité pour des systèmes de récompenses fiables

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

February 26, 2025
Auteurs: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Résumé

Les modèles de récompense (RMs) sont essentiels pour l'entraînement et le passage à l'échelle lors de l'inférence des grands modèles de langage (LLMs). Cependant, les modèles de récompense existants se concentrent principalement sur les préférences humaines, négligeant les signaux de vérifiabilité qui ont montré un fort potentiel dans l'entraînement des LLMs. Dans cet article, nous proposons la modélisation de récompense agentique, un système de récompense qui combine des modèles de récompense avec des signaux de vérifiabilité provenant de différents aspects pour fournir des récompenses fiables. Nous mettons empiriquement en œuvre un agent de récompense, nommé RewardAgent, qui combine les récompenses basées sur les préférences humaines avec deux signaux vérifiables : la factualité et le suivi des instructions, pour fournir des récompenses plus fiables. Nous menons des expériences approfondies sur des benchmarks existants de modèles de récompense et des recherches de meilleur choix parmi n lors de l'inférence sur des tâches en aval du monde réel. RewardAgent surpasse significativement les modèles de récompense classiques, démontrant son efficacité. Nous construisons ensuite des paires de préférences d'entraînement en utilisant RewardAgent et entraînons un LLM avec l'objectif DPO, obtenant des performances supérieures sur divers benchmarks NLP par rapport aux modèles de récompense conventionnels. Nos codes sont publiés publiquement pour faciliter les recherches futures (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Summary

AI-Generated Summary

PDF222February 27, 2025