Hecho, Recuperación y Razón: Una Evaluación Unificada de Generación con Recuperación Mejorada
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
September 19, 2024
Autores: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado mejoras significativas en el rendimiento en diversas tareas cognitivas. Una aplicación emergente es el uso de LLMs para mejorar las capacidades de generación aumentada por recuperación (RAG). Estos sistemas requieren que los LLMs comprendan las consultas de los usuarios, recuperen información relevante y sinteticen respuestas coherentes y precisas. Dado el creciente despliegue de tales sistemas en el mundo real, la evaluación integral se vuelve crucial. Con este fin, proponemos FRAMES (Conjunto de Medición de Factibilidad, Recuperación y Razonamiento), un conjunto de datos de evaluación de alta calidad diseñado para probar la capacidad de los LLMs para proporcionar respuestas factuales, evaluar las capacidades de recuperación y evaluar el razonamiento necesario para generar respuestas finales. Si bien trabajos anteriores han proporcionado conjuntos de datos y puntos de referencia para evaluar estas habilidades de forma aislada, FRAMES ofrece un marco unificado que proporciona una imagen más clara del rendimiento de los LLMs en escenarios de RAG de extremo a extremo. Nuestro conjunto de datos comprende preguntas desafiantes de múltiples pasos que requieren la integración de información de múltiples fuentes. Presentamos resultados de línea base que demuestran que incluso los LLMs de última generación tienen dificultades con esta tarea, logrando una precisión de 0.40 sin recuperación. La precisión mejora significativamente con nuestro propuesto proceso de recuperación de múltiples pasos, alcanzando una precisión de 0.66 (>50% de mejora). Esperamos que nuestro trabajo ayude a cerrar las brechas de evaluación y contribuya al desarrollo de sistemas RAG más robustos y capaces.
English
Large Language Models (LLMs) have demonstrated significant performance
improvements across various cognitive tasks. An emerging application is using
LLMs to enhance retrieval-augmented generation (RAG) capabilities. These
systems require LLMs to understand user queries, retrieve relevant information,
and synthesize coherent and accurate responses. Given the increasing real-world
deployment of such systems, comprehensive evaluation becomes crucial. To this
end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set),
a high-quality evaluation dataset designed to test LLMs' ability to provide
factual responses, assess retrieval capabilities, and evaluate the reasoning
required to generate final answers. While previous work has provided datasets
and benchmarks to evaluate these abilities in isolation, FRAMES offers a
unified framework that provides a clearer picture of LLM performance in
end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions
that require the integration of information from multiple sources. We present
baseline results demonstrating that even state-of-the-art LLMs struggle with
this task, achieving 0.40 accuracy with no retrieval. The accuracy is
significantly improved with our proposed multi-step retrieval pipeline,
achieving an accuracy of 0.66 (>50% improvement). We hope our work will help
bridge evaluation gaps and assist in developing more robust and capable RAG
systems.Summary
AI-Generated Summary