LongIns: Um Exame Desafiador Baseado em Instruções de Longo Contexto para Modelos de Linguagem de Longo Prazo
LongIns: A Challenging Long-context Instruction-based Exam for LLMs
June 25, 2024
Autores: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI
Resumo
As capacidades de longo contexto dos grandes modelos de linguagem (LLMs) têm sido um tópico quente nos últimos anos. Para avaliar o desempenho dos LLMs em diferentes cenários, surgiram vários benchmarks de avaliação. No entanto, como a maioria desses benchmarks se concentra em identificar informações-chave para responder a perguntas, o que requer principalmente a capacidade de recuperação dos LLMs, esses benchmarks podem representar parcialmente o desempenho de raciocínio dos LLMs a partir de grandes quantidades de informações. Enquanto isso, embora os LLMs frequentemente afirmem ter janelas de contexto de 32k, 128k, 200k ou até mais longas, esses benchmarks falham em revelar o comprimento real suportado desses LLMs. Para abordar essas questões, propomos o conjunto de dados de benchmark LongIns, um exame desafiador baseado em instruções de longo contexto para LLMs, que é construído com base nos conjuntos de dados de instruções existentes. Especificamente, no nosso LongIns, introduzimos três configurações de avaliação: Instrução Global e Tarefa Única (GIST), Instrução Local e Tarefa Única (LIST) e Instrução Local e Múltiplas Tarefas (LIMT). Com base no LongIns, realizamos avaliações abrangentes nos LLMs existentes e obtivemos as seguintes descobertas importantes: (1). O GPT-4 com comprimento de contexto de 128k, que tem melhor desempenho, tem um desempenho ruim na janela de contexto de avaliação de 16k em nosso LongIns. (2). Para a capacidade de raciocínio de múltiplas etapas de muitos LLMs existentes, são necessários esforços significativos ainda sob janelas de contexto curtas (menos de 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot
topic in recent years. To evaluate the performance of LLMs in different
scenarios, various assessment benchmarks have emerged. However, as most of
these benchmarks focus on identifying key information to answer questions,
which mainly requires the retrieval ability of LLMs, these benchmarks can
partially represent the reasoning performance of LLMs from large amounts of
information. Meanwhile, although LLMs often claim to have context windows of
32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual
supported length of these LLMs. To address these issues, we propose the LongIns
benchmark dataset, a challenging long-context instruction-based exam for LLMs,
which is built based on the existing instruction datasets. Specifically, in our
LongIns, we introduce three evaluation settings: Global Instruction & Single
Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction &
Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations
on existing LLMs and have the following important findings: (1). The
top-performing GPT-4 with 128k context length performs poorly on the evaluation
context window of 16k in our LongIns. (2). For the multi-hop reasoning ability
of many existing LLMs, significant efforts are still needed under short context
windows (less than 4k).