Fait, Récupération et Raison : Une Évaluation Unifiée de la Génération Améliorée par la Récupération

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des améliorations significatives de performance dans diverses tâches cognitives. Une application émergente consiste à utiliser les LLMs pour améliorer les capacités de génération augmentée par récupération (RAG). Ces systèmes nécessitent que les LLMs comprennent les requêtes des utilisateurs, récupèrent des informations pertinentes, et synthétisent des réponses cohérentes et précises. Avec le déploiement croissant de tels systèmes dans le monde réel, une évaluation complète devient cruciale. À cette fin, nous proposons FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), un ensemble de données d'évaluation de haute qualité conçu pour tester la capacité des LLMs à fournir des réponses factuelles, évaluer les capacités de récupération, et évaluer le raisonnement nécessaire pour générer des réponses finales. Alors que des travaux antérieurs ont fourni des ensembles de données et des références pour évaluer ces capacités de manière isolée, FRAMES offre un cadre unifié qui donne une image plus claire de la performance des LLMs dans des scénarios RAG de bout en bout. Notre ensemble de données comprend des questions complexes à plusieurs étapes nécessitant l'intégration d'informations provenant de sources multiples. Nous présentons des résultats de base démontrant que même les LLMs de pointe ont du mal avec cette tâche, atteignant une précision de 0,40 sans récupération. La précision s'améliore significativement avec notre pipeline de récupération à plusieurs étapes proposé, atteignant une précision de 0,66 (>50% d'amélioration). Nous espérons que notre travail contribuera à combler les lacunes en matière d'évaluation et aidera au développement de systèmes RAG plus robustes et performants.

English

Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Fait, Récupération et Raison : Une Évaluation Unifiée de la Génération Améliorée par la Récupération

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

papers.abstract

Support