ChatPaper.aiChatPaper

RULER: 당신의 장문맥 언어 모델의 실제 문맥 크기는 얼마인가?

RULER: What's the Real Context Size of Your Long-Context Language Models?

April 9, 2024
저자: Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg
cs.AI

초록

긴 문맥 언어 모델(LMs)의 능력을 평가하기 위해, 긴 방해 텍스트(건초더미) 속에서 특정 정보(바늘)를 검색하는 능력을 시험하는 '건초더미 속 바늘 찾기(NIAH)' 테스트가 널리 사용되어 왔습니다. 그러나 이러한 단순한 검색 기반 테스트는 긴 문맥 이해의 표면적인 형태만을 나타냅니다. 긴 문맥 LMs에 대한 보다 포괄적인 평가를 제공하기 위해, 우리는 사용자 정의 시퀀스 길이와 작업 복잡성을 위한 유연한 구성을 갖춘 새로운 합성 벤치마크 RULER를 개발했습니다. RULER는 기본 NIAH 테스트를 확장하여 다양한 유형과 수량의 바늘을 포함한 변형을 다룹니다. 더 나아가, RULER는 문맥에서의 검색을 넘어선 행동을 테스트하기 위해 다중 홉 추적 및 집계와 같은 새로운 작업 범주를 도입했습니다. 우리는 RULER의 13가지 대표적인 작업을 통해 10개의 긴 문맥 LMs를 평가했습니다. 기본 NIAH 테스트에서 거의 완벽한 정확도를 달성했음에도 불구하고, 모든 모델은 문맥 길이가 증가함에 따라 큰 성능 하락을 보였습니다. 이들 모델은 모두 32K 토큰 이상의 문맥 크기를 주장하지만, 32K 길이에서 만족스러운 성능을 유지할 수 있는 모델은 GPT-4, Command-R, Yi-34B, Mixtral 네 가지뿐이었습니다. 200K의 문맥 길이를 지원하는 Yi-34B에 대한 우리의 분석은 입력 길이와 작업 복잡성이 증가함에 따라 개선의 여지가 크다는 것을 보여줍니다. 우리는 RULER를 오픈소스로 공개하여 긴 문맥 LMs에 대한 포괄적인 평가를 촉진하고자 합니다.
English
The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.

Summary

AI-Generated Summary

PDF383December 15, 2024