ChatPaper.aiChatPaper

Zusammenfassung eines Heuhaufens: Eine Herausforderung für LLMs mit langem Kontext und RAG-Systeme.

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

July 1, 2024
Autoren: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI

Zusammenfassung

LLMs und RAG-Systeme sind jetzt in der Lage, Millionen von Eingabetokens oder mehr zu verarbeiten. Die Bewertung der Ausgabequalität solcher Systeme bei Aufgaben mit langem Kontext bleibt jedoch herausfordernd, da Aufgaben wie "Nadel im Heuhaufen" an Komplexität fehlen. In dieser Arbeit argumentieren wir, dass Zusammenfassungen eine zentrale Rolle bei einer solchen Bewertung spielen können. Wir entwerfen ein Verfahren zur Synthese von Heuhaufen aus Dokumenten, um sicherzustellen, dass spezifische Erkenntnisse in den Dokumenten wiederholt werden. Die Aufgabe "Zusammenfassung eines Heuhaufens" (SummHay) erfordert dann von einem System, den Heuhaufen zu verarbeiten und basierend auf einer Abfrage eine Zusammenfassung zu generieren, die die relevanten Erkenntnisse identifiziert und die Quelldokumente präzise zitiert. Da wir genaue Kenntnisse darüber haben, welche Erkenntnisse in einer Heuhaufenzusammenfassung erscheinen sollten und welche Dokumente zitiert werden sollten, implementieren wir eine hoch reproduzierbare automatische Bewertung, die Zusammenfassungen in zwei Aspekten bewerten kann - Abdeckung und Zitat. Wir generieren Heuhaufen in zwei Bereichen (Gespräch, Nachrichten) und führen eine groß angelegte Bewertung von 10 LLMs und entsprechenden 50 RAG-Systemen durch. Unsere Ergebnisse deuten darauf hin, dass SummHay eine offene Herausforderung für aktuelle Systeme darstellt, da selbst Systeme, die mit einem Oracle-Signal der Dokumentrelevanz versehen sind, unsere Schätzung der menschlichen Leistung (56\%) um mehr als 10 Punkte bei einem gemeinsamen Score verfehlen. Ohne einen Retrievalerzielerzieler, erzielen LLMs mit langem Kontext wie GPT-4o und Claude 3 Opus weniger als 20% bei SummHay. Wir zeigen, dass SummHay auch zur Untersuchung von Unternehmens-RAG-Systemen und Positionsbias in Langkontextmodellen verwendet werden kann. Wir hoffen, dass zukünftige Systeme die menschliche Leistung bei SummHay erreichen und übertreffen können.
English
LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific insights repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.

Summary

AI-Generated Summary

PDF897November 28, 2024