ChatPaper.aiChatPaper

Resumen de un Montón de Heno: Un Desafío para LLMs de Contexto Largo y Sistemas RAG

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

July 1, 2024
Autores: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI

Resumen

Los LLMs y los sistemas RAG son ahora capaces de manejar millones de tokens de entrada o más. Sin embargo, evaluar la calidad de salida de tales sistemas en tareas de largo contexto sigue siendo un desafío, ya que tareas como Needle-in-a-Haystack carecen de complejidad. En este trabajo, argumentamos que la sumarización puede desempeñar un papel central en dicha evaluación. Diseñamos un procedimiento para sintetizar Montones de documentos, asegurando que ideas específicas se repitan entre los documentos. La tarea "Resumen de un Montón" (SummHay) luego requiere que un sistema procese el Montón y genere, dado un cuestionamiento, un resumen que identifique las ideas relevantes y cite precisamente los documentos fuente. Dado que tenemos un conocimiento preciso de qué ideas deberían aparecer en un resumen de montón y qué documentos deberían ser citados, implementamos una evaluación automática altamente reproducible que puede puntuar resúmenes en dos aspectos: Cobertura y Cita. Generamos Montones en dos dominios (conversación, noticias) y realizamos una evaluación a gran escala de 10 LLMs y 50 sistemas RAG correspondientes. Nuestros hallazgos indican que SummHay es un desafío abierto para los sistemas actuales, ya que incluso los sistemas provistos con una señal Oráculo de relevancia documental se rezagan respecto a nuestra estimación del rendimiento humano (56\%) por más de 10 puntos en una Puntuación Conjunta. Sin un recuperador, LLMs de largo contexto como GPT-4o y Claude 3 Opus obtienen puntajes por debajo del 20% en SummHay. Mostramos que SummHay también puede ser utilizado para estudiar sistemas RAG empresariales y sesgos de posición en modelos de largo contexto. Esperamos que los sistemas futuros puedan igualar y superar el rendimiento humano en SummHay.
English
LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific insights repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.

Summary

AI-Generated Summary

PDF897November 28, 2024