Résumé d'une botte de foin : Un défi pour les LLM à contexte étendu et les systèmes RAG
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
July 1, 2024
Auteurs: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI
Résumé
Les LLM et les systèmes RAG sont désormais capables de gérer des millions de tokens d'entrée ou plus. Cependant, évaluer la qualité de sortie de tels systèmes sur des tâches à contexte long reste un défi, car des tâches comme Needle-in-a-Haystack manquent de complexité. Dans ce travail, nous soutenons que la synthèse peut jouer un rôle central dans une telle évaluation. Nous concevons une procédure pour synthétiser des "Haystacks" de documents, en veillant à ce que des insights spécifiques se répètent à travers les documents. La tâche "Summary of a Haystack" (SummHay) exige alors qu'un système traite le Haystack et génère, à partir d'une requête, un résumé qui identifie les insights pertinents et cite précisément les documents sources. Comme nous avons une connaissance précise des insights qui devraient apparaître dans un résumé de Haystack et des documents qui devraient être cités, nous mettons en œuvre une évaluation automatique hautement reproductible qui peut noter les résumés sur deux aspects : la Couverture et la Citation. Nous générons des Haystacks dans deux domaines (conversation, actualités) et effectuons une évaluation à grande échelle de 10 LLM et des 50 systèmes RAG correspondants. Nos résultats indiquent que SummHay est un défi ouvert pour les systèmes actuels, car même les systèmes dotés d'un signal Oracle de pertinence des documents sont en retard par rapport à notre estimation de la performance humaine (56 %) de plus de 10 points sur un Score Joint. Sans un système de récupération, les LLM à contexte long comme GPT-4o et Claude 3 Opus obtiennent des scores inférieurs à 20 % sur SummHay. Nous montrons que SummHay peut également être utilisé pour étudier les systèmes RAG d'entreprise et le biais de position dans les modèles à contexte long. Nous espérons que les futurs systèmes pourront égaler et surpasser la performance humaine sur SummHay.
English
LLMs and RAG systems are now capable of handling millions of input tokens or
more. However, evaluating the output quality of such systems on long-context
tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity.
In this work, we argue that summarization can play a central role in such
evaluation. We design a procedure to synthesize Haystacks of documents,
ensuring that specific insights repeat across documents. The "Summary
of a Haystack" (SummHay) task then requires a system to process the Haystack
and generate, given a query, a summary that identifies the relevant insights
and precisely cites the source documents. Since we have precise knowledge of
what insights should appear in a haystack summary and what documents should be
cited, we implement a highly reproducible automatic evaluation that can score
summaries on two aspects - Coverage and Citation. We generate Haystacks in two
domains (conversation, news), and perform a large-scale evaluation of 10 LLMs
and corresponding 50 RAG systems. Our findings indicate that SummHay is an open
challenge for current systems, as even systems provided with an Oracle signal
of document relevance lag our estimate of human performance (56\%) by 10+
points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and
Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to
study enterprise RAG systems and position bias in long-context models. We hope
future systems can equal and surpass human performance on SummHay.Summary
AI-Generated Summary