LongIns: Un examen desafiante basado en instrucciones de contexto largo para LLMs
LongIns: A Challenging Long-context Instruction-based Exam for LLMs
June 25, 2024
Autores: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI
Resumen
Las capacidades de contexto largo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido un tema candente en los últimos años. Para evaluar el rendimiento de los LLMs en diferentes escenarios, han surgido diversos puntos de referencia de evaluación. Sin embargo, dado que la mayoría de estos puntos de referencia se centran en identificar información clave para responder preguntas, lo que principalmente requiere la capacidad de recuperación de los LLMs, estos pueden representar parcialmente el desempeño de razonamiento de los LLMs a partir de grandes cantidades de información. Mientras tanto, aunque los LLMs a menudo afirman tener ventanas de contexto de 32k, 128k, 200k o incluso más largas, estos puntos de referencia no logran revelar la longitud real soportada por estos LLMs. Para abordar estos problemas, proponemos el conjunto de datos de referencia LongIns, un examen desafiante basado en instrucciones de contexto largo para LLMs, que se construye a partir de los conjuntos de datos de instrucciones existentes. Específicamente, en nuestro LongIns, introducimos tres configuraciones de evaluación: Instrucción Global y Tarea Única (GIST), Instrucción Local y Tarea Única (LIST), e Instrucción Local y Múltiples Tareas (LIMT). Basándonos en LongIns, realizamos evaluaciones exhaustivas de los LLMs existentes y obtenemos los siguientes hallazgos importantes: (1) El GPT-4, que es el mejor desempeñante con una longitud de contexto de 128k, tiene un rendimiento deficiente en la ventana de contexto de evaluación de 16k en nuestro LongIns. (2) Para la capacidad de razonamiento de múltiples saltos de muchos LLMs existentes, aún se necesitan esfuerzos significativos bajo ventanas de contexto cortas (menos de 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot
topic in recent years. To evaluate the performance of LLMs in different
scenarios, various assessment benchmarks have emerged. However, as most of
these benchmarks focus on identifying key information to answer questions,
which mainly requires the retrieval ability of LLMs, these benchmarks can
partially represent the reasoning performance of LLMs from large amounts of
information. Meanwhile, although LLMs often claim to have context windows of
32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual
supported length of these LLMs. To address these issues, we propose the LongIns
benchmark dataset, a challenging long-context instruction-based exam for LLMs,
which is built based on the existing instruction datasets. Specifically, in our
LongIns, we introduce three evaluation settings: Global Instruction & Single
Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction &
Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations
on existing LLMs and have the following important findings: (1). The
top-performing GPT-4 with 128k context length performs poorly on the evaluation
context window of 16k in our LongIns. (2). For the multi-hop reasoning ability
of many existing LLMs, significant efforts are still needed under short context
windows (less than 4k).Summary
AI-Generated Summary