LongIns: Un Esame Basato su Istruzioni a Lungo Contesto per i Modelli Linguistici di Grande Dimensione
LongIns: A Challenging Long-context Instruction-based Exam for LLMs
June 25, 2024
Autori: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI
Abstract
Le capacità di contesto esteso dei grandi modelli linguistici (LLM) sono state un argomento di grande interesse negli ultimi anni. Per valutare le prestazioni degli LLM in diversi scenari, sono emersi vari benchmark di valutazione. Tuttavia, poiché la maggior parte di questi benchmark si concentra sull'identificazione di informazioni chiave per rispondere a domande, che richiede principalmente la capacità di recupero degli LLM, questi benchmark possono rappresentare solo parzialmente le prestazioni di ragionamento degli LLM a partire da grandi quantità di informazioni. Nel frattempo, sebbene gli LLM spesso dichiarino di avere finestre di contesto di 32k, 128k, 200k o addirittura più lunghe, questi benchmark non riescono a rivelare la lunghezza effettivamente supportata da questi LLM. Per affrontare questi problemi, proponiamo il dataset benchmark LongIns, un esame impegnativo basato su istruzioni a contesto esteso per gli LLM, costruito a partire dai dataset di istruzioni esistenti. Nello specifico, nel nostro LongIns introduciamo tre impostazioni di valutazione: Istruzione Globale & Compito Singolo (GIST), Istruzione Locale & Compito Singolo (LIST) e Istruzione Locale & Compiti Multipli (LIMT). Basandoci su LongIns, eseguiamo valutazioni complete sugli LLM esistenti e otteniamo le seguenti importanti osservazioni: (1). Il GPT-4, che è il migliore in classifica con una lunghezza di contesto di 128k, ha prestazioni scarse sulla finestra di contesto di valutazione di 16k nel nostro LongIns. (2). Per la capacità di ragionamento multi-hop di molti LLM esistenti, sono ancora necessari sforzi significativi sotto finestre di contesto brevi (meno di 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot
topic in recent years. To evaluate the performance of LLMs in different
scenarios, various assessment benchmarks have emerged. However, as most of
these benchmarks focus on identifying key information to answer questions,
which mainly requires the retrieval ability of LLMs, these benchmarks can
partially represent the reasoning performance of LLMs from large amounts of
information. Meanwhile, although LLMs often claim to have context windows of
32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual
supported length of these LLMs. To address these issues, we propose the LongIns
benchmark dataset, a challenging long-context instruction-based exam for LLMs,
which is built based on the existing instruction datasets. Specifically, in our
LongIns, we introduce three evaluation settings: Global Instruction & Single
Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction &
Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations
on existing LLMs and have the following important findings: (1). The
top-performing GPT-4 with 128k context length performs poorly on the evaluation
context window of 16k in our LongIns. (2). For the multi-hop reasoning ability
of many existing LLMs, significant efforts are still needed under short context
windows (less than 4k).