Resumo de um Haystack: Um Desafio para LLMs de Longo Contexto e Sistemas RAG
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
July 1, 2024
Autores: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI
Resumo
Os LLMs e sistemas RAG agora são capazes de lidar com milhões de tokens de entrada ou mais. No entanto, avaliar a qualidade de saída desses sistemas em tarefas de longo contexto continua sendo um desafio, pois tarefas como "Needle-in-a-Haystack" carecem de complexidade. Neste trabalho, argumentamos que a sumarização pode desempenhar um papel central nessa avaliação. Projetamos um procedimento para sintetizar "Haystacks" de documentos, garantindo que insights específicos se repitam entre os documentos. A tarefa "Sumário de um Haystack" (SummHay) então requer que um sistema processe o Haystack e gere, dado uma consulta, um resumo que identifique os insights relevantes e cite precisamente os documentos de origem. Como temos conhecimento preciso sobre quais insights devem aparecer em um resumo de haystack e quais documentos devem ser citados, implementamos uma avaliação automática altamente reprodutível que pode pontuar os resumos em dois aspectos - Cobertura e Citação. Geramos Haystacks em dois domínios (conversação, notícias) e realizamos uma avaliação em larga escala de 10 LLMs e 50 sistemas RAG correspondentes. Nossas descobertas indicam que SummHay é um desafio aberto para os sistemas atuais, pois mesmo os sistemas fornecidos com um sinal Oracle de relevância do documento ficam 10+ pontos atrás de nossa estimativa de desempenho humano (56\%) em um Escore Conjunto. Sem um recuperador, LLMs de longo contexto como GPT-4o e Claude 3 Opus pontuam abaixo de 20% no SummHay. Mostramos que o SummHay também pode ser usado para estudar sistemas RAG empresariais e viés de posicionamento em modelos de longo contexto. Esperamos que os sistemas futuros possam igualar e superar o desempenho humano no SummHay.
English
LLMs and RAG systems are now capable of handling millions of input tokens or
more. However, evaluating the output quality of such systems on long-context
tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity.
In this work, we argue that summarization can play a central role in such
evaluation. We design a procedure to synthesize Haystacks of documents,
ensuring that specific insights repeat across documents. The "Summary
of a Haystack" (SummHay) task then requires a system to process the Haystack
and generate, given a query, a summary that identifies the relevant insights
and precisely cites the source documents. Since we have precise knowledge of
what insights should appear in a haystack summary and what documents should be
cited, we implement a highly reproducible automatic evaluation that can score
summaries on two aspects - Coverage and Citation. We generate Haystacks in two
domains (conversation, news), and perform a large-scale evaluation of 10 LLMs
and corresponding 50 RAG systems. Our findings indicate that SummHay is an open
challenge for current systems, as even systems provided with an Oracle signal
of document relevance lag our estimate of human performance (56\%) by 10+
points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and
Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to
study enterprise RAG systems and position bias in long-context models. We hope
future systems can equal and surpass human performance on SummHay.