Fato, Busca e Razão: Uma Avaliação Unificada da Geração Aprimorada por Recuperação

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhorias significativas de desempenho em várias tarefas cognitivas. Uma aplicação emergente é o uso de LLMs para aprimorar as capacidades de geração com recuperação aumentada (RAG). Esses sistemas requerem que os LLMs compreendam as consultas dos usuários, recuperem informações relevantes e sintetizem respostas coerentes e precisas. Dada a crescente implementação desses sistemas no mundo real, a avaliação abrangente torna-se crucial. Nesse sentido, propomos o FRAMES (Conjunto de Medição de Factualidade, Recuperação e Raciocínio), um conjunto de dados de avaliação de alta qualidade projetado para testar a capacidade dos LLMs de fornecer respostas factuais, avaliar as capacidades de recuperação e avaliar o raciocínio necessário para gerar respostas finais. Enquanto trabalhos anteriores forneceram conjuntos de dados e benchmarks para avaliar essas habilidades de forma isolada, o FRAMES oferece um framework unificado que fornece uma imagem mais clara do desempenho dos LLMs em cenários de RAG de ponta a ponta. Nosso conjunto de dados é composto por perguntas desafiadoras de múltiplos saltos que exigem a integração de informações de várias fontes. Apresentamos resultados basais demonstrando que mesmo os LLMs de última geração enfrentam dificuldades nessa tarefa, alcançando uma precisão de 0,40 sem recuperação. A precisão é significativamente melhorada com nosso pipeline de recuperação em vários passos proposto, alcançando uma precisão de 0,66 (>50% de melhoria). Esperamos que nosso trabalho ajude a preencher lacunas de avaliação e auxilie no desenvolvimento de sistemas RAG mais robustos e capazes.

English

Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Fato, Busca e Razão: Uma Avaliação Unificada da Geração Aprimorada por Recuperação

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

Resumo

Support