ChatPaper.aiChatPaper

LongIns: LLM向けの長文コンテキスト指令型試験としての挑戦

LongIns: A Challenging Long-context Instruction-based Exam for LLMs

June 25, 2024
著者: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI

要旨

大規模言語モデル(LLM)の長文脈処理能力は、近年ホットなトピックとなっている。LLMのさまざまなシナリオにおける性能を評価するため、多様な評価ベンチマークが登場している。しかし、これらのベンチマークの多くは、質問に答えるためにキー情報を特定することに焦点を当てており、主にLLMの検索能力を必要とするため、大量の情報からの推論性能を部分的にしか反映していない。一方、LLMはしばしば32k、128k、200k、あるいはそれ以上の長さのコンテキストウィンドウを有すると主張しているが、これらのベンチマークはLLMが実際にサポートする長さを明らかにするには至っていない。これらの課題に対処するため、我々は既存の指示データセットに基づいて構築された、LLM向けの挑戦的な長文脈指示ベースの試験であるLongInsベンチマークデータセットを提案する。具体的には、LongInsにおいて、Global Instruction & Single Task(GIST)、Local Instruction & Single Task(LIST)、Local Instruction & Multiple Tasks(LIMT)という3つの評価設定を導入する。LongInsに基づき、既存のLLMに対して包括的な評価を行い、以下の重要な知見を得た:(1)128kのコンテキスト長を有するトップパフォーマンスのGPT-4でさえ、LongInsにおける16kの評価コンテキストウィンドウでは低い性能を示す。(2)多くの既存のLLMのマルチホップ推論能力に関しては、短いコンテキストウィンドウ(4k未満)では依然として大きな改善が必要である。
English
The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).

Summary

AI-Generated Summary

PDF231November 29, 2024