ChatPaper.aiChatPaper

RULER: 長文脈言語モデルの真のコンテキストサイズとは何か?

RULER: What's the Real Context Size of Your Long-Context Language Models?

April 9, 2024
著者: Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg
cs.AI

要旨

干し草の山の中から針を見つける(NIAH)テストは、長いディストラクターテキスト(「干し草の山」)から特定の情報(「針」)を検索する能力を評価するために、長文脈言語モデル(LM)の評価として広く採用されています。しかし、この単純な検索ベースのテストは、長文脈理解の表面的な形式しか示していません。長文脈LMのより包括的な評価を提供するため、私たちは新しい合成ベンチマークRULERを作成しました。RULERは、カスタマイズ可能なシーケンス長とタスクの複雑さを柔軟に設定できるように設計されています。RULERは、基本的なNIAHテストを拡張し、さまざまな種類や量の針を含むバリエーションを網羅しています。さらに、RULERは、文脈からの検索を超えた行動をテストするために、マルチホップトレーシングと集計という新しいタスクカテゴリを導入しています。私たちは、RULERの13の代表的なタスクを使用して、10の長文脈LMを評価しました。基本的なNIAHテストではほぼ完璧な精度を達成しているにもかかわらず、すべてのモデルは、文脈長が増加するにつれて大幅な性能低下を示します。これらのモデルはすべて32Kトークン以上の文脈サイズを主張していますが、32Kの長さで満足のいく性能を維持できるのは、GPT-4、Command-R、Yi-34B、Mixtralの4つのモデルだけです。200Kの文脈長をサポートするYi-34Bの分析では、入力長とタスクの複雑さを増加させるにつれて、改善の余地が大きいことが明らかになりました。私たちは、長文脈LMの包括的な評価を促進するために、RULERをオープンソースとして公開します。
English
The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.

Summary

AI-Generated Summary

PDF383December 15, 2024