RAG-RewardBench : Évaluation des modèles de récompense dans la génération augmentée par récupération pour l'alignement des préférences
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Auteurs: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Résumé
Malgré les progrès significatifs réalisés par les modèles de langage augmentés par récupération (RALM) existants pour fournir des réponses fiables et ancrées dans des sources crédibles, ils négligent souvent un alignement efficace avec les préférences humaines. Dans le processus d'alignement, les modèles de récompense (RM) agissent comme un proxy crucial des valeurs humaines pour guider l'optimisation. Cependant, il reste encore flou comment évaluer et sélectionner un RM fiable pour l'alignement des préférences dans les RALM. À cette fin, nous proposons RAG-RewardBench, le premier banc d'essai pour évaluer les RM dans les paramètres RAG. Tout d'abord, nous concevons quatre scénarios cruciaux et complexes spécifiques aux RAG pour évaluer les RM, comprenant un raisonnement multi-sauts, une citation détaillée, une abstention appropriée et une robustesse aux conflits. Ensuite, nous incorporons 18 sous-ensembles RAG, six récupérateurs et 24 RALM pour accroître la diversité des sources de données. Enfin, nous adoptons une approche LLM-comme-juge pour améliorer l'efficacité et l'efficience de l'annotation des préférences, présentant une forte corrélation avec les annotations humaines. Sur la base de RAG-RewardBench, nous menons une évaluation complète de 45 RM et mettons en lumière leurs limites dans les scénarios RAG. De plus, nous révélons également que les RALM existants entraînés ne montrent presque aucune amélioration dans l'alignement des préférences, soulignant le besoin d'une transition vers une formation alignée sur les préférences. Nous mettons notre banc d'essai et notre code publiquement à disposition sur https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ pour les travaux futurs.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary