ChatPaper.aiChatPaper

LongIns: Un examen desafiante basado en instrucciones de contexto largo para LLMs

LongIns: A Challenging Long-context Instruction-based Exam for LLMs

June 25, 2024
Autores: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI

Resumen

Las capacidades de contexto largo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido un tema candente en los últimos años. Para evaluar el rendimiento de los LLMs en diferentes escenarios, han surgido diversos puntos de referencia de evaluación. Sin embargo, dado que la mayoría de estos puntos de referencia se centran en identificar información clave para responder preguntas, lo que principalmente requiere la capacidad de recuperación de los LLMs, estos pueden representar parcialmente el desempeño de razonamiento de los LLMs a partir de grandes cantidades de información. Mientras tanto, aunque los LLMs a menudo afirman tener ventanas de contexto de 32k, 128k, 200k o incluso más largas, estos puntos de referencia no logran revelar la longitud real soportada por estos LLMs. Para abordar estos problemas, proponemos el conjunto de datos de referencia LongIns, un examen desafiante basado en instrucciones de contexto largo para LLMs, que se construye a partir de los conjuntos de datos de instrucciones existentes. Específicamente, en nuestro LongIns, introducimos tres configuraciones de evaluación: Instrucción Global y Tarea Única (GIST), Instrucción Local y Tarea Única (LIST), e Instrucción Local y Múltiples Tareas (LIMT). Basándonos en LongIns, realizamos evaluaciones exhaustivas de los LLMs existentes y obtenemos los siguientes hallazgos importantes: (1) El GPT-4, que es el mejor desempeñante con una longitud de contexto de 128k, tiene un rendimiento deficiente en la ventana de contexto de evaluación de 16k en nuestro LongIns. (2) Para la capacidad de razonamiento de múltiples saltos de muchos LLMs existentes, aún se necesitan esfuerzos significativos bajo ventanas de contexto cortas (menos de 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).

Summary

AI-Generated Summary

PDF231November 29, 2024