ChatPaper.aiChatPaper

Modellizzazione Agente delle Ricompense: Integrazione delle Preferenze Umane con Segnali di Correttezza Verificabili per Sistemi di Ricompensa Affidabili

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

February 26, 2025
Autori: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Abstract

I modelli di ricompensa (Reward Models, RMs) sono cruciali per l'addestramento e il ridimensionamento al momento dell'inferenza dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, i modelli di ricompensa esistenti si concentrano principalmente sulle preferenze umane, trascurando i segnali di correttezza verificabile che hanno dimostrato un forte potenziale nell'addestramento dei LLMs. In questo articolo, proponiamo la modellazione di ricompensa agentica, un sistema di ricompensa che combina i modelli di ricompensa con segnali di correttezza verificabile provenienti da diversi aspetti per fornire ricompense affidabili. Implementiamo empiricamente un agente di ricompensa, denominato RewardAgent, che combina le ricompense basate sulle preferenze umane con due segnali verificabili: la fattualità e il rispetto delle istruzioni, per fornire ricompense più affidabili. Eseguiamo esperimenti completi sui benchmark esistenti dei modelli di ricompensa e sulle ricerche best-of-n al momento dell'inferenza su task downstream del mondo reale. RewardAgent supera significativamente i modelli di ricompensa standard, dimostrando la sua efficacia. Costruiamo ulteriormente coppie di preferenze di addestramento utilizzando RewardAgent e addestriamo un LLM con l'obiettivo DPO, ottenendo prestazioni superiori su vari benchmark NLP rispetto ai modelli di ricompensa convenzionali. I nostri codici sono pubblicamente disponibili per facilitare ulteriori ricerche (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Summary

AI-Generated Summary

PDF222February 27, 2025