ChatPaper.aiChatPaper

Fakt, Abruf und Schlussfolgerung: Eine einheitliche Bewertung der abrufgestützten Generierung

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

September 19, 2024
Autoren: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben signifikante Leistungsverbesserungen bei verschiedenen kognitiven Aufgaben gezeigt. Eine aufkommende Anwendung besteht darin, LLMs zur Verbesserung der Fähigkeiten zur abrufgestützten Generierung (RAG) einzusetzen. Diese Systeme erfordern von LLMs, Benutzeranfragen zu verstehen, relevante Informationen abzurufen und kohärente und genaue Antworten zu synthetisieren. Angesichts der zunehmenden Realweltbereitstellung solcher Systeme wird eine umfassende Bewertung entscheidend. Zu diesem Zweck schlagen wir FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) vor, einen hochwertigen Bewertungsdatensatz, der entwickelt wurde, um die Fähigkeit von LLMs zur Bereitstellung faktischer Antworten zu testen, die Abrufkapazitäten zu bewerten und das für die Generierung endgültiger Antworten erforderliche Argumentieren zu evaluieren. Während frühere Arbeiten Datensätze und Benchmarks bereitgestellt haben, um diese Fähigkeiten isoliert zu bewerten, bietet FRAMES einen vereinheitlichten Rahmen, der ein klareres Bild der Leistung von LLMs in End-to-End-RAG-Szenarien liefert. Unser Datensatz umfasst anspruchsvolle Mehrfachsprungfragen, die die Integration von Informationen aus mehreren Quellen erfordern. Wir präsentieren Baseline-Ergebnisse, die zeigen, dass selbst modernste LLMs mit dieser Aufgabe zu kämpfen haben und eine Genauigkeit von 0,40 ohne Abruf erreichen. Die Genauigkeit wird signifikant verbessert durch unsere vorgeschlagene mehrstufige Abrufpipeline, die eine Genauigkeit von 0,66 erreicht (>50% Verbesserung). Wir hoffen, dass unsere Arbeit dazu beiträgt, Bewertungslücken zu schließen und bei der Entwicklung robusterer und leistungsfähigerer RAG-Systeme zu helfen.
English
Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Summary

AI-Generated Summary

PDF253November 16, 2024