ChatPaper.aiChatPaper

Fatto, Recupera e Ragiona: Una Valutazione Unificata della Generazione Potenziata dal Recupero

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

September 19, 2024
Autori: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI

Abstract

I Large Language Models (LLM) hanno dimostrato significativi miglioramenti delle prestazioni in varie attività cognitive. Un'applicazione emergente è l'utilizzo di LLM per potenziare le capacità di generazione potenziate da recupero (RAG). Questi sistemi richiedono che i LLM comprendano le richieste degli utenti, recuperino informazioni rilevanti e sintetizzino risposte coerenti e accurate. Data la crescente implementazione di tali sistemi nel mondo reale, diventa cruciale una valutazione completa. A tal fine, proponiamo FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), un dataset di valutazione di alta qualità progettato per testare la capacità dei LLM di fornire risposte fattuali, valutare le capacità di recupero ed esaminare il ragionamento necessario per generare risposte finali. Sebbene lavori precedenti abbiano fornito dataset e benchmark per valutare queste capacità in modo isolato, FRAMES offre un quadro unificato che fornisce una visione più chiara delle prestazioni dei LLM in scenari di RAG end-to-end. Il nostro dataset comprende domande sfidanti multi-hop che richiedono l'integrazione di informazioni da più fonti. Presentiamo risultati di base che dimostrano che anche i LLM all'avanguardia faticano con questo compito, raggiungendo un'accuratezza del 0,40 senza recupero. L'accuratezza migliora significativamente con il nostro proposto sistema di recupero a più passaggi, raggiungendo un'accuratezza del 0,66 (>50% di miglioramento). Speriamo che il nostro lavoro contribuirà a colmare le lacune nella valutazione e ad aiutare nello sviluppo di sistemi RAG più robusti e capaci.
English
Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Summary

AI-Generated Summary

PDF253November 16, 2024