ChatPaper.aiChatPaper

Feit, Ophalen en Redeneren: Een Geïntegreerde Evaluatie van Ophalen-Versterkte Generatie

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

September 19, 2024
Auteurs: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben aanzienlijke prestatieverbeteringen aangetoond bij verschillende cognitieve taken. Een opkomende toepassing is het gebruik van LLMs om de mogelijkheden voor ophalingsversterkte generatie (RAG) te verbeteren. Deze systemen vereisen dat LLMs gebruikersquery's begrijpen, relevante informatie ophalen en coherente en nauwkeurige antwoorden synthetiseren. Gezien de toenemende implementatie van dergelijke systemen in de echte wereld, wordt uitgebreide evaluatie cruciaal. Daartoe stellen wij FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) voor, een hoogwaardige evaluatiedataset ontworpen om de mogelijkheid van LLMs om feitelijke antwoorden te geven te testen, ophaalmogelijkheden te beoordelen en de redenering te evalueren die nodig is om uiteindelijke antwoorden te genereren. Hoewel eerdere werken datasets en benchmarks hebben geleverd om deze vaardigheden afzonderlijk te evalueren, biedt FRAMES een verenigd kader dat een duidelijker beeld geeft van de prestaties van LLMs in end-to-end RAG-scenario's. Onze dataset bestaat uit uitdagende meerstapsvragen die de integratie van informatie uit meerdere bronnen vereisen. We presenteren baselineresultaten die aantonen dat zelfs state-of-the-art LLMs moeite hebben met deze taak, met een nauwkeurigheid van 0.40 zonder ophaling. De nauwkeurigheid wordt aanzienlijk verbeterd met ons voorgestelde meerstaps ophaalproces, met een nauwkeurigheid van 0.66 (>50% verbetering). We hopen dat ons werk zal helpen bij het overbruggen van evaluatiekloven en zal bijdragen aan de ontwikkeling van robuustere en capabelere RAG-systemen.
English
Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Summary

AI-Generated Summary

PDF253November 16, 2024