RAG-RewardBench: Evaluación de Modelos de Recompensa en Generación Aumentada por Recuperación para Alineación de Preferencias

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

December 18, 2024
Autores: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

Resumen

A pesar del significativo progreso logrado por los modelos de lenguaje aumentados con recuperación (RALMs) existentes en proporcionar respuestas confiables y fundamentadas en fuentes fiables, a menudo pasan por alto la alineación efectiva con las preferencias humanas. En el proceso de alineación, los modelos de recompensa (RMs) actúan como un proxy crucial para los valores humanos que guían la optimización. Sin embargo, sigue sin estar claro cómo evaluar y seleccionar un RM confiable para la alineación de preferencias en RALMs. Con este fin, proponemos RAG-RewardBench, el primer banco de pruebas para evaluar RMs en entornos de RAG. En primer lugar, diseñamos cuatro escenarios cruciales y desafiantes específicos de RAG para evaluar RMs, que incluyen razonamiento multi-paso, citación detallada, abstención apropiada y robustez ante conflictos. Luego, incorporamos 18 subconjuntos de RAG, seis recuperadores y 24 RALMs para aumentar la diversidad de fuentes de datos. Finalmente, adoptamos un enfoque de LLM-como-juez para mejorar la eficiencia y efectividad de la anotación de preferencias, mostrando una fuerte correlación con las anotaciones humanas. Basándonos en RAG-RewardBench, realizamos una evaluación exhaustiva de 45 RMs y descubrimos sus limitaciones en escenarios de RAG. Además, también revelamos que los RALMs entrenados existentes muestran casi ninguna mejora en la alineación de preferencias, resaltando la necesidad de un cambio hacia un entrenamiento alineado con preferencias. Publicamos nuestro banco de pruebas y código públicamente en https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabajos futuros.
English
Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

Summary

AI-Generated Summary

PDF92December 19, 2024