ChatPaper.aiChatPaper

Modelado de Recompensas Agénticas: Integración de Preferencias Humanas con Señales de Corrección Verificables para Sistemas de Recompensas Confiables

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

February 26, 2025
Autores: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Resumen

Los modelos de recompensa (RMs) son cruciales para el entrenamiento y la ampliación en tiempo de inferencia de los grandes modelos de lenguaje (LLMs). Sin embargo, los modelos de recompensa existentes se centran principalmente en las preferencias humanas, descuidando las señales de corrección verificable que han demostrado un gran potencial en el entrenamiento de LLMs. En este artículo, proponemos el modelado de recompensas agentivo, un sistema de recompensas que combina modelos de recompensa con señales de corrección verificable desde diferentes aspectos para proporcionar recompensas confiables. Implementamos empíricamente un agente de recompensa, denominado RewardAgent, que combina recompensas basadas en preferencias humanas con dos señales verificables: factualidad y seguimiento de instrucciones, para ofrecer recompensas más confiables. Realizamos experimentos exhaustivos en benchmarks existentes de modelos de recompensa y búsquedas de mejor-de-n en tiempo de inferencia en tareas descendentes del mundo real. RewardAgent supera significativamente a los modelos de recompensa convencionales, demostrando su eficacia. Además, construimos pares de preferencias de entrenamiento utilizando RewardAgent y entrenamos un LLM con el objetivo DPO, logrando un rendimiento superior en varios benchmarks de NLP en comparación con los modelos de recompensa tradicionales. Nuestros códigos se han publicado públicamente para facilitar investigaciones futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Summary

AI-Generated Summary

PDF222February 27, 2025