Fait, Récupération et Raison : Une Évaluation Unifiée de la Génération Améliorée par la Récupération
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation
September 19, 2024
Auteurs: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des améliorations significatives de performance dans diverses tâches cognitives. Une application émergente consiste à utiliser les LLMs pour améliorer les capacités de génération augmentée par récupération (RAG). Ces systèmes nécessitent que les LLMs comprennent les requêtes des utilisateurs, récupèrent des informations pertinentes, et synthétisent des réponses cohérentes et précises. Avec le déploiement croissant de tels systèmes dans le monde réel, une évaluation complète devient cruciale. À cette fin, nous proposons FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), un ensemble de données d'évaluation de haute qualité conçu pour tester la capacité des LLMs à fournir des réponses factuelles, évaluer les capacités de récupération, et évaluer le raisonnement nécessaire pour générer des réponses finales. Alors que des travaux antérieurs ont fourni des ensembles de données et des références pour évaluer ces capacités de manière isolée, FRAMES offre un cadre unifié qui donne une image plus claire de la performance des LLMs dans des scénarios RAG de bout en bout. Notre ensemble de données comprend des questions complexes à plusieurs étapes nécessitant l'intégration d'informations provenant de sources multiples. Nous présentons des résultats de base démontrant que même les LLMs de pointe ont du mal avec cette tâche, atteignant une précision de 0,40 sans récupération. La précision s'améliore significativement avec notre pipeline de récupération à plusieurs étapes proposé, atteignant une précision de 0,66 (>50% d'amélioration). Nous espérons que notre travail contribuera à combler les lacunes en matière d'évaluation et aidera au développement de systèmes RAG plus robustes et performants.
English
Large Language Models (LLMs) have demonstrated significant performance
improvements across various cognitive tasks. An emerging application is using
LLMs to enhance retrieval-augmented generation (RAG) capabilities. These
systems require LLMs to understand user queries, retrieve relevant information,
and synthesize coherent and accurate responses. Given the increasing real-world
deployment of such systems, comprehensive evaluation becomes crucial. To this
end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set),
a high-quality evaluation dataset designed to test LLMs' ability to provide
factual responses, assess retrieval capabilities, and evaluate the reasoning
required to generate final answers. While previous work has provided datasets
and benchmarks to evaluate these abilities in isolation, FRAMES offers a
unified framework that provides a clearer picture of LLM performance in
end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions
that require the integration of information from multiple sources. We present
baseline results demonstrating that even state-of-the-art LLMs struggle with
this task, achieving 0.40 accuracy with no retrieval. The accuracy is
significantly improved with our proposed multi-step retrieval pipeline,
achieving an accuracy of 0.66 (>50% improvement). We hope our work will help
bridge evaluation gaps and assist in developing more robust and capable RAG
systems.Summary
AI-Generated Summary