Fato, Busca e Razão: Uma Avaliação Unificada da Geração Aprimorada por Recuperação
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
September 19, 2024
Autores: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhorias significativas de desempenho em várias tarefas cognitivas. Uma aplicação emergente é o uso de LLMs para aprimorar as capacidades de geração com recuperação aumentada (RAG). Esses sistemas requerem que os LLMs compreendam as consultas dos usuários, recuperem informações relevantes e sintetizem respostas coerentes e precisas. Dada a crescente implementação desses sistemas no mundo real, a avaliação abrangente torna-se crucial. Nesse sentido, propomos o FRAMES (Conjunto de Medição de Factualidade, Recuperação e Raciocínio), um conjunto de dados de avaliação de alta qualidade projetado para testar a capacidade dos LLMs de fornecer respostas factuais, avaliar as capacidades de recuperação e avaliar o raciocínio necessário para gerar respostas finais. Enquanto trabalhos anteriores forneceram conjuntos de dados e benchmarks para avaliar essas habilidades de forma isolada, o FRAMES oferece um framework unificado que fornece uma imagem mais clara do desempenho dos LLMs em cenários de RAG de ponta a ponta. Nosso conjunto de dados é composto por perguntas desafiadoras de múltiplos saltos que exigem a integração de informações de várias fontes. Apresentamos resultados basais demonstrando que mesmo os LLMs de última geração enfrentam dificuldades nessa tarefa, alcançando uma precisão de 0,40 sem recuperação. A precisão é significativamente melhorada com nosso pipeline de recuperação em vários passos proposto, alcançando uma precisão de 0,66 (>50% de melhoria). Esperamos que nosso trabalho ajude a preencher lacunas de avaliação e auxilie no desenvolvimento de sistemas RAG mais robustos e capazes.
English
Large Language Models (LLMs) have demonstrated significant performance
improvements across various cognitive tasks. An emerging application is using
LLMs to enhance retrieval-augmented generation (RAG) capabilities. These
systems require LLMs to understand user queries, retrieve relevant information,
and synthesize coherent and accurate responses. Given the increasing real-world
deployment of such systems, comprehensive evaluation becomes crucial. To this
end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set),
a high-quality evaluation dataset designed to test LLMs' ability to provide
factual responses, assess retrieval capabilities, and evaluate the reasoning
required to generate final answers. While previous work has provided datasets
and benchmarks to evaluate these abilities in isolation, FRAMES offers a
unified framework that provides a clearer picture of LLM performance in
end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions
that require the integration of information from multiple sources. We present
baseline results demonstrating that even state-of-the-art LLMs struggle with
this task, achieving 0.40 accuracy with no retrieval. The accuracy is
significantly improved with our proposed multi-step retrieval pipeline,
achieving an accuracy of 0.66 (>50% improvement). We hope our work will help
bridge evaluation gaps and assist in developing more robust and capable RAG
systems.Summary
AI-Generated Summary