Обзор Соломы: Вызов для LLM с длинным контекстом и систем RAGSummary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
LLM и системы RAG теперь способны обрабатывать миллионы входных токенов или более. Однако оценка качества вывода таких систем на задачах с длинным контекстом остается сложной, поскольку задачи, такие как "Игла в стоге сена", лишены сложности. В данной работе мы утверждаем, что суммаризация может сыграть центральную роль в такой оценке. Мы разрабатываем процедуру синтеза стогов документов, обеспечивая повторение конкретных идей в различных документах. Задача "Суммаризация стога" (SummHay) требует, чтобы система обрабатывала стог и генерировала, учитывая запрос, сводку, которая выделяет соответствующие идеи и точно ссылается на исходные документы. Поскольку у нас есть точное знание о том, какие идеи должны появиться в сводке стога и какие документы должны быть процитированы, мы реализуем высокорепродуцируемую автоматическую оценку, которая может оценивать сводки по двум аспектам - Покрытие и Цитирование. Мы создаем стоги в двух областях (разговор, новости) и проводим масштабную оценку 10 LLM и соответствующих 50 систем RAG. Наши результаты показывают, что SummHay является открытым вызовом для текущих систем, поскольку даже системы, получившие сигнал Оракула о значимости документа, отстают от нашей оценки человеческой производительности (56\%) на 10+ пунктов по Общему Баллу. Без поисковика LLM с длинным контекстом, такие как GPT-4o и Claude 3 Opus, набирают менее 20% по SummHay. Мы показываем, что SummHay также может быть использован для изучения корпоративных систем RAG и предвзятости в моделях с длинным контекстом. Мы надеемся, что будущие системы смогут превзойти человеческую производительность по SummHay.