LongIns: Сложный экзамен на основе длинных инструкций для моделей языкового моделирования.
LongIns: A Challenging Long-context Instruction-based Exam for LLMs
June 25, 2024
Авторы: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI
Аннотация
Способности к обработке длинного контекста больших языковых моделей (LLM) стали активно обсуждаемой темой в последние годы. Для оценки производительности LLM в различных сценариях появились различные оценочные бенчмарки. Однако поскольку большинство из этих бенчмарков сосредоточены на выявлении ключевой информации для ответа на вопросы, что в основном требует способности извлечения информации у LLM, эти бенчмарки могут частично отражать способность LLM к рассуждению на основе большого объема информации. Тем временем, хотя LLM часто утверждают, что имеют контекстные окна размером 32k, 128k, 200k или даже больше, эти бенчмарки не раскрывают фактической поддерживаемой длины этих LLM. Для решения этих проблем мы предлагаем набор данных бенчмарка LongIns, сложный экзамен на основе инструкций с длинным контекстом для LLM, который создан на основе существующих наборов данных инструкций. Конкретно, в нашем LongIns мы представляем три настройки оценки: Глобальная Инструкция и Одна Задача (GIST), Локальная Инструкция и Одна Задача (LIST) и Локальная Инструкция и Несколько Задач (LIMT). Основываясь на LongIns, мы проводим всестороннюю оценку существующих LLM и имеем следующие важные результаты: (1). Лучшая производительность GPT-4 с длиной контекста 128k показывает плохие результаты при оценке контекстного окна 16k в нашем LongIns. (2). Для многошаговой рассуждательной способности многих существующих LLM все еще требуются значительные усилия при коротких контекстных окнах (менее 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot
topic in recent years. To evaluate the performance of LLMs in different
scenarios, various assessment benchmarks have emerged. However, as most of
these benchmarks focus on identifying key information to answer questions,
which mainly requires the retrieval ability of LLMs, these benchmarks can
partially represent the reasoning performance of LLMs from large amounts of
information. Meanwhile, although LLMs often claim to have context windows of
32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual
supported length of these LLMs. To address these issues, we propose the LongIns
benchmark dataset, a challenging long-context instruction-based exam for LLMs,
which is built based on the existing instruction datasets. Specifically, in our
LongIns, we introduce three evaluation settings: Global Instruction & Single
Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction &
Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations
on existing LLMs and have the following important findings: (1). The
top-performing GPT-4 with 128k context length performs poorly on the evaluation
context window of 16k in our LongIns. (2). For the multi-hop reasoning ability
of many existing LLMs, significant efforts are still needed under short context
windows (less than 4k).Summary
AI-Generated Summary