Факт, Извлечение и Рассуждение: Объединенная оценка Генерации с Использованием Поиска.
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
September 19, 2024
Авторы: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали значительное улучшение производительности в различных когнитивных задачах. Одним из новых применений является использование LLM для улучшения возможностей поисково-дополненной генерации (RAG). Эти системы требуют, чтобы LLM понимали запросы пользователей, извлекали соответствующую информацию и синтезировали последовательные и точные ответы. Учитывая увеличение развертывания таких систем в реальном мире, становится критически важной всесторонняя оценка. В этой связи мы предлагаем FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) - набор оценочных данных высокого качества, разработанный для проверки способности LLM предоставлять фактические ответы, оценивать возможности поиска и оценивать логику, необходимую для генерации окончательных ответов. В то время как предыдущие работы предоставляли наборы данных и бенчмарки для оценки этих способностей изолированно, FRAMES предлагает унифицированную структуру, которая дает более ясное представление о производительности LLM в сценариях RAG end-to-end. Наш набор данных включает в себя сложные многошаговые вопросы, требующие интеграции информации из нескольких источников. Мы представляем базовые результаты, демонстрируя, что даже современные LLM испытывают трудности с этой задачей, достигая точности 0,40 без поиска. Точность значительно повышается с нашей предложенной много
English
Large Language Models (LLMs) have demonstrated significant performance
improvements across various cognitive tasks. An emerging application is using
LLMs to enhance retrieval-augmented generation (RAG) capabilities. These
systems require LLMs to understand user queries, retrieve relevant information,
and synthesize coherent and accurate responses. Given the increasing real-world
deployment of such systems, comprehensive evaluation becomes crucial. To this
end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set),
a high-quality evaluation dataset designed to test LLMs' ability to provide
factual responses, assess retrieval capabilities, and evaluate the reasoning
required to generate final answers. While previous work has provided datasets
and benchmarks to evaluate these abilities in isolation, FRAMES offers a
unified framework that provides a clearer picture of LLM performance in
end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions
that require the integration of information from multiple sources. We present
baseline results demonstrating that even state-of-the-art LLMs struggle with
this task, achieving 0.40 accuracy with no retrieval. The accuracy is
significantly improved with our proposed multi-step retrieval pipeline,
achieving an accuracy of 0.66 (>50% improvement). We hope our work will help
bridge evaluation gaps and assist in developing more robust and capable RAG
systems.Summary
AI-Generated Summary