RAG-RewardBench: Evaluación de Modelos de Recompensa en Generación Aumentada por Recuperación para Alineación de Preferencias
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Autores: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumen
A pesar del significativo progreso logrado por los modelos de lenguaje aumentados con recuperación (RALMs) existentes en proporcionar respuestas confiables y fundamentadas en fuentes fiables, a menudo pasan por alto la alineación efectiva con las preferencias humanas. En el proceso de alineación, los modelos de recompensa (RMs) actúan como un proxy crucial para los valores humanos que guían la optimización. Sin embargo, sigue sin estar claro cómo evaluar y seleccionar un RM confiable para la alineación de preferencias en RALMs. Con este fin, proponemos RAG-RewardBench, el primer banco de pruebas para evaluar RMs en entornos de RAG. En primer lugar, diseñamos cuatro escenarios cruciales y desafiantes específicos de RAG para evaluar RMs, que incluyen razonamiento multi-paso, citación detallada, abstención apropiada y robustez ante conflictos. Luego, incorporamos 18 subconjuntos de RAG, seis recuperadores y 24 RALMs para aumentar la diversidad de fuentes de datos. Finalmente, adoptamos un enfoque de LLM-como-juez para mejorar la eficiencia y efectividad de la anotación de preferencias, mostrando una fuerte correlación con las anotaciones humanas. Basándonos en RAG-RewardBench, realizamos una evaluación exhaustiva de 45 RMs y descubrimos sus limitaciones en escenarios de RAG. Además, también revelamos que los RALMs entrenados existentes muestran casi ninguna mejora en la alineación de preferencias, resaltando la necesidad de un cambio hacia un entrenamiento alineado con preferencias. Publicamos nuestro banco de pruebas y código públicamente en https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabajos futuros.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary