ChatPaper.aiChatPaper

Résumé d'une botte de foin : Un défi pour les LLM à contexte étendu et les systèmes RAG

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

July 1, 2024
Auteurs: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI

Résumé

Les LLM et les systèmes RAG sont désormais capables de gérer des millions de tokens d'entrée ou plus. Cependant, évaluer la qualité de sortie de tels systèmes sur des tâches à contexte long reste un défi, car des tâches comme Needle-in-a-Haystack manquent de complexité. Dans ce travail, nous soutenons que la synthèse peut jouer un rôle central dans une telle évaluation. Nous concevons une procédure pour synthétiser des "Haystacks" de documents, en veillant à ce que des insights spécifiques se répètent à travers les documents. La tâche "Summary of a Haystack" (SummHay) exige alors qu'un système traite le Haystack et génère, à partir d'une requête, un résumé qui identifie les insights pertinents et cite précisément les documents sources. Comme nous avons une connaissance précise des insights qui devraient apparaître dans un résumé de Haystack et des documents qui devraient être cités, nous mettons en œuvre une évaluation automatique hautement reproductible qui peut noter les résumés sur deux aspects : la Couverture et la Citation. Nous générons des Haystacks dans deux domaines (conversation, actualités) et effectuons une évaluation à grande échelle de 10 LLM et des 50 systèmes RAG correspondants. Nos résultats indiquent que SummHay est un défi ouvert pour les systèmes actuels, car même les systèmes dotés d'un signal Oracle de pertinence des documents sont en retard par rapport à notre estimation de la performance humaine (56 %) de plus de 10 points sur un Score Joint. Sans un système de récupération, les LLM à contexte long comme GPT-4o et Claude 3 Opus obtiennent des scores inférieurs à 20 % sur SummHay. Nous montrons que SummHay peut également être utilisé pour étudier les systèmes RAG d'entreprise et le biais de position dans les modèles à contexte long. Nous espérons que les futurs systèmes pourront égaler et surpasser la performance humaine sur SummHay.
English
LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific insights repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.

Summary

AI-Generated Summary

PDF897November 28, 2024