ChatPaper.aiChatPaper

LongIns: Een uitdagend lang-context instructiegebaseerd examen voor LLM's

LongIns: A Challenging Long-context Instruction-based Exam for LLMs

June 25, 2024
Auteurs: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI

Samenvatting

De lang-context mogelijkheden van grote taalmodellen (LLMs) zijn de afgelopen jaren een populair onderwerp geweest. Om de prestaties van LLMs in verschillende scenario's te evalueren, zijn diverse beoordelingsbenchmarks ontstaan. Echter, aangezien de meeste van deze benchmarks zich richten op het identificeren van sleutelinformatie om vragen te beantwoorden, wat voornamelijk het ophaalvermogen van LLMs vereist, kunnen deze benchmarks slechts gedeeltelijk het redeneervermogen van LLMs uit grote hoeveelheden informatie weergeven. Tegelijkertijd, hoewel LLMs vaak beweren contextvensters te hebben van 32k, 128k, 200k of zelfs langer, slagen deze benchmarks er niet in de daadwerkelijk ondersteunde lengte van deze LLMs te onthullen. Om deze problemen aan te pakken, stellen we de LongIns benchmarkdataset voor, een uitdagend lang-context instructiegebaseerd examen voor LLMs, dat is gebaseerd op bestaande instructiedatasets. Specifiek introduceren we in onze LongIns drie evaluatie-instellingen: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), en Local Instruction & Multiple Tasks (LIMT). Op basis van LongIns voeren we uitgebreide evaluaties uit op bestaande LLMs en hebben we de volgende belangrijke bevindingen: (1). De best presterende GPT-4 met een contextlengte van 128k presteert slecht op het evaluatiecontextvenster van 16k in onze LongIns. (2). Voor het multi-hop redeneervermogen van veel bestaande LLMs zijn nog aanzienlijke inspanningen nodig onder korte contextvensters (minder dan 4k).
English
The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).
PDF231February 8, 2026