Не оставляйте ни одного документа: оценка длинноконтекстных языковых моделей с расширенным мультидокументным вопросно-ответным тестированием.
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
Авторы: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
Аннотация
Способности моделирования длинного контекста привлекли широкое внимание, что привело к появлению Больших Языковых Моделей (БЯМ) с ультра-контекстными окнами. Тем временем, показатели для оценки БЯМ с длинным контекстом постепенно нарастают. Однако существующие показатели используют несвязанные шумовые тексты для искусственного увеличения длины тестовых случаев, отходя от реальных сценариев применения длинного контекста. Для устранения этого разрыва мы предлагаем новый показатель длинного контекста, Loong, соответствующий реалистичным сценариям через расширенное мультидокументное вопросно-ответное тестирование (QA). В отличие от типичного QA по документам, в тестовых случаях Loong каждый документ имеет отношение к конечному ответу, пропуск любого документа приведет к неудаче ответа. Кроме того, Loong представляет четыре типа задач с различными длинами контекста: Локализация Спотлайта, Сравнение, Кластеризация и Цепочка Рассуждений, чтобы облегчить более реалистичную и всестороннюю оценку понимания длинного контекста. Обширные эксперименты показывают, что существующие модели языка с длинным контекстом все еще обладают значительным потенциалом для улучшения. Модель с извлечением и генерацией (RAG) демонстрирует низкую производительность, показывая, что Loong может надежно оценивать способности моделирования длинного контекста модели.
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.Summary
AI-Generated Summary