Обзор Соломы: Вызов для LLM с длинным контекстом и систем RAG

Аннотация

LLM и системы RAG теперь способны обрабатывать миллионы входных токенов или более. Однако оценка качества вывода таких систем на задачах с длинным контекстом остается сложной, поскольку задачи, такие как "Игла в стоге сена", лишены сложности. В данной работе мы утверждаем, что суммаризация может сыграть центральную роль в такой оценке. Мы разрабатываем процедуру синтеза стогов документов, обеспечивая повторение конкретных идей в различных документах. Задача "Суммаризация стога" (SummHay) требует, чтобы система обрабатывала стог и генерировала, учитывая запрос, сводку, которая выделяет соответствующие идеи и точно ссылается на исходные документы. Поскольку у нас есть точное знание о том, какие идеи должны появиться в сводке стога и какие документы должны быть процитированы, мы реализуем высокорепродуцируемую автоматическую оценку, которая может оценивать сводки по двум аспектам - Покрытие и Цитирование. Мы создаем стоги в двух областях (разговор, новости) и проводим масштабную оценку 10 LLM и соответствующих 50 систем RAG. Наши результаты показывают, что SummHay является открытым вызовом для текущих систем, поскольку даже системы, получившие сигнал Оракула о значимости документа, отстают от нашей оценки человеческой производительности (56\%) на 10+ пунктов по Общему Баллу. Без поисковика LLM с длинным контекстом, такие как GPT-4o и Claude 3 Opus, набирают менее 20% по SummHay. Мы показываем, что SummHay также может быть использован для изучения корпоративных систем RAG и предвзятости в моделях с длинным контекстом. Мы надеемся, что будущие системы смогут превзойти человеческую производительность по SummHay.

English

LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific insights repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.

Обзор Соломы: Вызов для LLM с длинным контекстом и систем RAG

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

Аннотация

Support