Agentisch Beloningsmodelleren: Integratie van Menselijke Voorkeuren met Verifieerbare Correctheidssignalen voor Betrouwbare Beloningssystemen
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
February 26, 2025
Auteurs: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Beloningsmodellen (RMs) zijn cruciaal voor de training en het opschalen tijdens de inferentie van grote taalmodelen (LLMs). Echter richten bestaande beloningsmodellen zich voornamelijk op menselijke voorkeuren, waarbij verifieerbare correctheidssignalen worden verwaarloosd, terwijl deze een sterk potentieel hebben bij het trainen van LLMs. In dit artikel stellen we agentische beloningsmodellering voor, een beloningssysteem dat beloningsmodellen combineert met verifieerbare correctheidssignalen vanuit verschillende aspecten om betrouwbare beloningen te bieden. We implementeren empirisch een beloningsagent, genaamd RewardAgent, die menselijke voorkeursbeloningen combineert met twee verifieerbare signalen: feitelijkheid en instructievolging, om betrouwbaardere beloningen te bieden. We voeren uitgebreide experimenten uit op bestaande benchmarks voor beloningsmodellen en inferentietijd best-of-n zoekopdrachten op real-world downstream taken. RewardAgent presteert aanzienlijk beter dan standaard beloningsmodellen, wat de effectiviteit ervan aantoont. We construeren verder trainingsvoorkeursparen met behulp van RewardAgent en trainen een LLM met het DPO-doel, wat superieure prestaties oplevert op verschillende NLP-benchmarks in vergelijking met conventionele beloningsmodellen. Onze code is openbaar vrijgegeven om verder onderzoek te faciliteren (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling
up of large language models (LLMs). However, existing reward models primarily
focus on human preferences, neglecting verifiable correctness signals which
have shown strong potential in training LLMs. In this paper, we propose agentic
reward modeling, a reward system that combines reward models with verifiable
correctness signals from different aspects to provide reliable rewards. We
empirically implement a reward agent, named RewardAgent, that combines human
preference rewards with two verifiable signals: factuality and instruction
following, to provide more reliable rewards. We conduct comprehensive
experiments on existing reward model benchmarks and inference time best-of-n
searches on real-world downstream tasks. RewardAgent significantly outperforms
vanilla reward models, demonstrating its effectiveness. We further construct
training preference pairs using RewardAgent and train an LLM with the DPO
objective, achieving superior performance on various NLP benchmarks compared to
conventional reward models. Our codes are publicly released to facilitate
further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).