RAG-RewardBench : Évaluation des modèles de récompense dans la génération augmentée par récupération pour l'alignement des préférences

papers.abstract

Malgré les progrès significatifs réalisés par les modèles de langage augmentés par récupération (RALM) existants pour fournir des réponses fiables et ancrées dans des sources crédibles, ils négligent souvent un alignement efficace avec les préférences humaines. Dans le processus d'alignement, les modèles de récompense (RM) agissent comme un proxy crucial des valeurs humaines pour guider l'optimisation. Cependant, il reste encore flou comment évaluer et sélectionner un RM fiable pour l'alignement des préférences dans les RALM. À cette fin, nous proposons RAG-RewardBench, le premier banc d'essai pour évaluer les RM dans les paramètres RAG. Tout d'abord, nous concevons quatre scénarios cruciaux et complexes spécifiques aux RAG pour évaluer les RM, comprenant un raisonnement multi-sauts, une citation détaillée, une abstention appropriée et une robustesse aux conflits. Ensuite, nous incorporons 18 sous-ensembles RAG, six récupérateurs et 24 RALM pour accroître la diversité des sources de données. Enfin, nous adoptons une approche LLM-comme-juge pour améliorer l'efficacité et l'efficience de l'annotation des préférences, présentant une forte corrélation avec les annotations humaines. Sur la base de RAG-RewardBench, nous menons une évaluation complète de 45 RM et mettons en lumière leurs limites dans les scénarios RAG. De plus, nous révélons également que les RALM existants entraînés ne montrent presque aucune amélioration dans l'alignement des préférences, soulignant le besoin d'une transition vers une formation alignée sur les préférences. Nous mettons notre banc d'essai et notre code publiquement à disposition sur https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ pour les travaux futurs.

English

Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

RAG-RewardBench : Évaluation des modèles de récompense dans la génération augmentée par récupération pour l'alignement des préférences

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

papers.abstract

Support