Riassunto di un Pagliaio: Una Sfida per i Modelli Linguistici a Lungo Contesto e i Sistemi RAG
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
July 1, 2024
Autori: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI
Abstract
I LLM e i sistemi RAG sono ora in grado di gestire milioni di token di input o più. Tuttavia, valutare la qualità dell'output di tali sistemi su compiti a lungo contesto rimane una sfida, poiché compiti come Needle-in-a-Haystack mancano di complessità. In questo lavoro, sosteniamo che la sintesi può svolgere un ruolo centrale in tale valutazione. Progettiamo una procedura per sintetizzare Haystack di documenti, assicurandoci che specifiche informazioni si ripetano tra i documenti. Il compito "Summary of a Haystack" (SummHay) richiede quindi a un sistema di elaborare l'Haystack e generare, data una query, una sintesi che identifichi le informazioni rilevanti e citi precisamente i documenti sorgente. Poiché abbiamo una conoscenza precisa di quali informazioni dovrebbero apparire in una sintesi dell'Haystack e quali documenti dovrebbero essere citati, implementiamo una valutazione automatica altamente riproducibile che può assegnare punteggi alle sintesi su due aspetti: Copertura e Citazione. Generiamo Haystack in due domini (conversazione, notizie) e eseguiamo una valutazione su larga scala di 10 LLM e i corrispondenti 50 sistemi RAG. I nostri risultati indicano che SummHay è una sfida aperta per i sistemi attuali, poiché anche i sistemi forniti con un segnale Oracle di rilevanza del documento rimangono al di sotto della nostra stima delle prestazioni umane (56%) di oltre 10 punti su un Punteggio Congiunto. Senza un retriever, LLM a lungo contesto come GPT-4o e Claude 3 Opus ottengono punteggi inferiori al 20% su SummHay. Mostriamo che SummHay può anche essere utilizzato per studiare i sistemi RAG aziendali e il bias di posizione nei modelli a lungo contesto. Speriamo che i sistemi futuri possano eguagliare e superare le prestazioni umane su SummHay.
English
LLMs and RAG systems are now capable of handling millions of input tokens or
more. However, evaluating the output quality of such systems on long-context
tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity.
In this work, we argue that summarization can play a central role in such
evaluation. We design a procedure to synthesize Haystacks of documents,
ensuring that specific insights repeat across documents. The "Summary
of a Haystack" (SummHay) task then requires a system to process the Haystack
and generate, given a query, a summary that identifies the relevant insights
and precisely cites the source documents. Since we have precise knowledge of
what insights should appear in a haystack summary and what documents should be
cited, we implement a highly reproducible automatic evaluation that can score
summaries on two aspects - Coverage and Citation. We generate Haystacks in two
domains (conversation, news), and perform a large-scale evaluation of 10 LLMs
and corresponding 50 RAG systems. Our findings indicate that SummHay is an open
challenge for current systems, as even systems provided with an Oracle signal
of document relevance lag our estimate of human performance (56\%) by 10+
points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and
Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to
study enterprise RAG systems and position bias in long-context models. We hope
future systems can equal and surpass human performance on SummHay.