ChatPaper.aiChatPaper

Agentisches Reward-Modellierung: Integration menschlicher Präferenzen mit verifizierbaren Korrektheitssignalen für zuverlässige Belohnungssysteme

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

February 26, 2025
Autoren: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Zusammenfassung

Belohnungsmodelle (RMs) sind entscheidend für das Training und die Skalierung großer Sprachmodelle (LLMs) zur Inferenzzeit. Allerdings konzentrieren sich bestehende Belohnungsmodelle hauptsächlich auf menschliche Präferenzen und vernachlässigen überprüfbare Korrektheitssignale, die ein starkes Potenzial für das Training von LLMs gezeigt haben. In diesem Artikel schlagen wir agentisches Belohnungsmodellieren vor, ein Belohnungssystem, das Belohnungsmodelle mit überprüfbaren Korrektheitssignalen aus verschiedenen Aspekten kombiniert, um zuverlässige Belohnungen zu liefern. Wir implementieren empirisch einen Belohnungsagenten, genannt RewardAgent, der menschliche Präferenzbelohnungen mit zwei überprüfbaren Signalen kombiniert: Faktizität und Befolgung von Anweisungen, um zuverlässigere Belohnungen zu liefern. Wir führen umfassende Experimente auf bestehenden Belohnungsmodell-Benchmarks und Inferenzzeit-Best-of-n-Suchen bei realen Downstream-Aufgaben durch. RewardAgent übertrifft herkömmliche Belohnungsmodelle deutlich und demonstriert damit seine Wirksamkeit. Wir erstellen weiterhin Trainingspräferenzpaare mit RewardAgent und trainieren ein LLM mit dem DPO-Ziel, wodurch wir eine überlegene Leistung auf verschiedenen NLP-Benchmarks im Vergleich zu konventionellen Belohnungsmodellen erzielen. Unsere Codes sind öffentlich verfügbar, um weitere Forschungen zu ermöglichen (https://github.com/THU-KEG/Agentic-Reward-Modeling).
English
Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Summary

AI-Generated Summary

PDF222February 27, 2025