RAG-RewardBench: Benchmarking von Belohnungsmodellen in der Retrieval-augmentierten Generierung zur Ausrichtung von Präferenzen
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Autoren: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Zusammenfassung
Trotz des signifikanten Fortschritts, den bestehende abrufgestützte Sprachmodelle (RALMs) bei der Bereitstellung vertrauenswürdiger Antworten und der Verankerung in zuverlässigen Quellen erzielt haben, vernachlässigen sie oft eine effektive Ausrichtung an menschlichen Präferenzen. Im Ausrichtungsprozess fungieren Belohnungsmodelle (RMs) als entscheidende Stellvertreter menschlicher Werte, um die Optimierung zu lenken. Es bleibt jedoch unklar, wie man ein zuverlässiges RM zur Präferenzausrichtung in RALMs bewerten und auswählen kann. Zu diesem Zweck schlagen wir RAG-RewardBench vor, den ersten Benchmark zur Bewertung von RMs in RAG-Umgebungen. Zunächst entwerfen wir vier entscheidende und anspruchsvolle RAG-spezifische Szenarien zur Bewertung von RMs, darunter mehrstufiges Denken, fein abgestufte Zitate, angemessenes Enthalten und Konfliktrobustheit. Anschließend integrieren wir 18 RAG-Teilmengen, sechs Abrufer und 24 RALMs, um die Vielfalt der Datenquellen zu erhöhen. Schließlich übernehmen wir einen LLM-als-Richter-Ansatz, um die Effizienz und Wirksamkeit der Präferenzannotation zu verbessern und eine starke Korrelation mit menschlichen Annotationen zu zeigen. Basierend auf dem RAG-RewardBench führen wir eine umfassende Bewertung von 45 RMs durch und decken ihre Einschränkungen in RAG-Szenarien auf. Darüber hinaus zeigen wir auch auf, dass bestehende trainierte RALMs fast keine Verbesserung in der Präferenzausrichtung aufweisen, was die Notwendigkeit einer Umstellung auf präferenzorientiertes Training hervorhebt. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ für zukünftige Arbeiten.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary