RAG-RewardBench: Benchmarken van Beloningsmodellen in Opvraging Verrijkte Generatie voor Voorkeursafstemming

Samenvatting

Ondanks de aanzienlijke vooruitgang die bestaande opvraag-versterkte taalmodellen (RALM's) hebben geboekt bij het verstrekken van betrouwbare antwoorden en het verankeren in betrouwbare bronnen, vergeten ze vaak effectieve afstemming op menselijke voorkeuren. In het afstemmingsproces fungeren beloningsmodellen (RMs) als een cruciale tussenpersoon voor menselijke waarden om de optimalisatie te sturen. Het blijft echter onduidelijk hoe een betrouwbaar RM voor voorkeursafstemming in RALM's geëvalueerd en geselecteerd kan worden. Daartoe stellen we RAG-RewardBench voor, de eerste benchmark voor het evalueren van RMs in RAG-instellingen. Ten eerste ontwerpen we vier cruciale en uitdagende RAG-specifieke scenario's om RMs te beoordelen, waaronder redeneren over meerdere stappen, fijnmazige citatie, passend onthouden en conflictbestendigheid. Vervolgens nemen we 18 RAG-subsets, zes ophalers en 24 RALM's op om de diversiteit van gegevensbronnen te vergroten. Ten slotte hanteren we een LLM-als-beoordelaarbenadering om de efficiëntie en effectiviteit van voorkeursannotatie te verbeteren, met een sterke correlatie met menselijke annotaties. Op basis van de RAG-RewardBench voeren we een uitgebreide evaluatie uit van 45 RMs en onthullen we hun beperkingen in RAG-scenario's. Bovendien onthullen we ook dat bestaande getrainde RALM's vrijwel geen verbetering laten zien in voorkeursafstemming, wat de noodzaak benadrukt van een verschuiving naar voorkeursafgestemde training. We maken onze benchmark en code openbaar beschikbaar op https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ voor toekomstig werk.

English

Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

RAG-RewardBench: Benchmarken van Beloningsmodellen in Opvraging Verrijkte Generatie voor Voorkeursafstemming

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Samenvatting

Support