RAG-RewardBench: Benchmarken van Beloningsmodellen in Opvraging Verrijkte Generatie voor Voorkeursafstemming
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Auteurs: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Samenvatting
Ondanks de aanzienlijke vooruitgang die bestaande opvraag-versterkte taalmodellen (RALM's) hebben geboekt bij het verstrekken van betrouwbare antwoorden en het verankeren in betrouwbare bronnen, vergeten ze vaak effectieve afstemming op menselijke voorkeuren. In het afstemmingsproces fungeren beloningsmodellen (RMs) als een cruciale tussenpersoon voor menselijke waarden om de optimalisatie te sturen. Het blijft echter onduidelijk hoe een betrouwbaar RM voor voorkeursafstemming in RALM's geëvalueerd en geselecteerd kan worden. Daartoe stellen we RAG-RewardBench voor, de eerste benchmark voor het evalueren van RMs in RAG-instellingen. Ten eerste ontwerpen we vier cruciale en uitdagende RAG-specifieke scenario's om RMs te beoordelen, waaronder redeneren over meerdere stappen, fijnmazige citatie, passend onthouden en conflictbestendigheid. Vervolgens nemen we 18 RAG-subsets, zes ophalers en 24 RALM's op om de diversiteit van gegevensbronnen te vergroten. Ten slotte hanteren we een LLM-als-beoordelaarbenadering om de efficiëntie en effectiviteit van voorkeursannotatie te verbeteren, met een sterke correlatie met menselijke annotaties. Op basis van de RAG-RewardBench voeren we een uitgebreide evaluatie uit van 45 RMs en onthullen we hun beperkingen in RAG-scenario's. Bovendien onthullen we ook dat bestaande getrainde RALM's vrijwel geen verbetering laten zien in voorkeursafstemming, wat de noodzaak benadrukt van een verschuiving naar voorkeursafgestemde training. We maken onze benchmark en code openbaar beschikbaar op https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ voor toekomstig werk.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.