ChatPaper.aiChatPaper

LongIns: LLM을 위한 도전적인 장문 맥락 기반 지시문 평가 시험

LongIns: A Challenging Long-context Instruction-based Exam for LLMs

June 25, 2024
저자: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI

초록

대규모 언어 모델(LLM)의 장문맥 처리 능력은 최근 몇 년간 뜨거운 주제로 떠올랐다. 다양한 시나리오에서 LLM의 성능을 평가하기 위해 여러 평가 벤치마크가 등장했다. 그러나 이러한 벤치마크 대부분은 질문에 답하기 위해 핵심 정보를 식별하는 데 초점을 맞추고 있어, 주로 LLM의 검색 능력을 요구하며, 이는 대량의 정보에서 LLM의 추론 성능을 부분적으로만 대표할 수 있다. 한편, LLM이 종종 32k, 128k, 200k 또는 그 이상의 컨텍스트 윈도우를 갖고 있다고 주장하지만, 이러한 벤치마크는 이러한 LLM이 실제로 지원하는 길이를 드러내지 못한다. 이러한 문제를 해결하기 위해, 우리는 기존의 명령어 데이터셋을 기반으로 구축된 도전적인 장문맥 명령어 기반 시험인 LongIns 벤치마크 데이터셋을 제안한다. 구체적으로, 우리의 LongIns에서는 세 가지 평가 설정을 도입한다: 전역 명령어 & 단일 작업(GIST), 지역 명령어 & 단일 작업(LIST), 그리고 지역 명령어 & 다중 작업(LIMT). LongIns를 기반으로, 우리는 기존 LLM에 대한 포괄적인 평가를 수행하고 다음과 같은 중요한 발견을 얻었다: (1) 128k 컨텍스트 길이를 가진 최고 성능의 GPT-4는 우리의 LongIns에서 16k 평가 컨텍스트 윈도우에서 낮은 성능을 보였다. (2) 많은 기존 LLM의 다중 홉 추론 능력은 짧은 컨텍스트 윈도우(4k 미만)에서 여전히 상당한 개선이 필요하다.
English
The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).

Summary

AI-Generated Summary

PDF231November 29, 2024