Modelagem de Recompensa Agente: Integrando Preferências Humanas com Sinais de Correção Verificáveis para Sistemas de Recompensa Confiáveis
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
February 26, 2025
Autores: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Resumo
Os modelos de recompensa (RMs) são cruciais para o treinamento e escalonamento em tempo de inferência de grandes modelos de linguagem (LLMs). No entanto, os modelos de recompensa existentes focam principalmente nas preferências humanas, negligenciando sinais de correção verificáveis que têm mostrado um forte potencial no treinamento de LLMs. Neste artigo, propomos a modelagem de recompensa agente, um sistema de recompensa que combina modelos de recompensa com sinais de correção verificáveis de diferentes aspectos para fornecer recompensas confiáveis. Implementamos empiricamente um agente de recompensa, chamado RewardAgent, que combina recompensas de preferência humana com dois sinais verificáveis: factualidade e seguimento de instruções, para fornecer recompensas mais confiáveis. Realizamos experimentos abrangentes em benchmarks de modelos de recompensa existentes e pesquisas de melhor de n em tempo de inferência em tarefas do mundo real. RewardAgent supera significativamente os modelos de recompensa convencionais, demonstrando sua eficácia. Além disso, construímos pares de preferência de treinamento usando o RewardAgent e treinamos um LLM com o objetivo DPO, alcançando desempenho superior em vários benchmarks de processamento de linguagem natural em comparação com os modelos de recompensa convencionais. Nossos códigos foram publicamente divulgados para facilitar pesquisas futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling
up of large language models (LLMs). However, existing reward models primarily
focus on human preferences, neglecting verifiable correctness signals which
have shown strong potential in training LLMs. In this paper, we propose agentic
reward modeling, a reward system that combines reward models with verifiable
correctness signals from different aspects to provide reliable rewards. We
empirically implement a reward agent, named RewardAgent, that combines human
preference rewards with two verifiable signals: factuality and instruction
following, to provide more reliable rewards. We conduct comprehensive
experiments on existing reward model benchmarks and inference time best-of-n
searches on real-world downstream tasks. RewardAgent significantly outperforms
vanilla reward models, demonstrating its effectiveness. We further construct
training preference pairs using RewardAgent and train an LLM with the DPO
objective, achieving superior performance on various NLP benchmarks compared to
conventional reward models. Our codes are publicly released to facilitate
further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).Summary
AI-Generated Summary