Samenvatting van een Hooiberg: Een Uitdaging voor LLM's met Lange Context en RAG-systemen
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
July 1, 2024
Auteurs: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI
Samenvatting
LLM's en RAG-systemen zijn nu in staat om miljoenen invoertokens of meer te verwerken. Het evalueren van de uitvoerkwaliteit van dergelijke systemen bij taken met lange context blijft echter een uitdaging, aangezien taken zoals 'Needle-in-a-Haystack' gebrek hebben aan complexiteit. In dit werk beargumenteren we dat samenvatting een centrale rol kan spelen bij dergelijke evaluaties. We ontwerpen een procedure om 'Hooibergen' van documenten te synthetiseren, waarbij we ervoor zorgen dat specifieke inzichten zich herhalen over verschillende documenten. De taak 'Samenvatting van een Hooiberg' (SummHay) vereist vervolgens dat een systeem de Hooiberg verwerkt en, gegeven een query, een samenvatting genereert die de relevante inzichten identificeert en de brondocumenten nauwkeurig citeert. Aangezien we precies weten welke inzichten in een samenvatting van een hooiberg zouden moeten voorkomen en welke documenten geciteerd zouden moeten worden, implementeren we een zeer reproduceerbare automatische evaluatie die samenvattingen kan beoordelen op twee aspecten: Dekking en Citatie. We genereren Hooibergen in twee domeinen (gesprekken, nieuws) en voeren een grootschalige evaluatie uit van 10 LLM's en bijbehorende 50 RAG-systemen. Onze bevindingen geven aan dat SummHay een open uitdaging is voor huidige systemen, aangezien zelfs systemen die voorzien zijn van een Oraclesignaal van documentrelevantie onze schatting van menselijke prestaties (56%) met meer dan 10 punten achterblijven op een Gecombineerde Score. Zonder een retriever scoren lange-context LLM's zoals GPT-4o en Claude 3 Opus onder de 20% op SummHay. We laten zien dat SummHay ook gebruikt kan worden om bedrijfs-RAG-systemen en positiebias in lange-context modellen te bestuderen. We hopen dat toekomstige systemen de menselijke prestaties op SummHay kunnen evenaren en overtreffen.
English
LLMs and RAG systems are now capable of handling millions of input tokens or
more. However, evaluating the output quality of such systems on long-context
tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity.
In this work, we argue that summarization can play a central role in such
evaluation. We design a procedure to synthesize Haystacks of documents,
ensuring that specific insights repeat across documents. The "Summary
of a Haystack" (SummHay) task then requires a system to process the Haystack
and generate, given a query, a summary that identifies the relevant insights
and precisely cites the source documents. Since we have precise knowledge of
what insights should appear in a haystack summary and what documents should be
cited, we implement a highly reproducible automatic evaluation that can score
summaries on two aspects - Coverage and Citation. We generate Haystacks in two
domains (conversation, news), and perform a large-scale evaluation of 10 LLMs
and corresponding 50 RAG systems. Our findings indicate that SummHay is an open
challenge for current systems, as even systems provided with an Oracle signal
of document relevance lag our estimate of human performance (56\%) by 10+
points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and
Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to
study enterprise RAG systems and position bias in long-context models. We hope
future systems can equal and surpass human performance on SummHay.