NoLiMa: リテラル一致を超えた長い文脈の評価
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
著者: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
要旨
最近の大規模言語モデル(LLMs)は、128Kから1Mトークンに及ぶ長いコンテキストをサポートしています。これらの能力を評価する人気のある方法は、「針の中の藁(NIAH)」テストであり、これは「針」(関連情報)を「藁」(長い無関連コンテキスト)から取得することを含みます。このアプローチの拡張には、誘導物の増加、事実連鎖、およびコンテキスト内推論が含まれます。ただし、これらのベンチマークでは、モデルが針と藁の間の既存のリテラルマッチを利用してタスクを簡素化できます。これを解決するために、私たちはNoLiMaを導入しました。これは、NIAHを拡張し、質問と針が最小限の語彙的重複を持つように注意深く設計された針セットを備えており、モデルには針を藁の中で見つけるために潜在的な関連性を推論する必要があります。少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLLMsを評価します。これらは短いコンテキスト(<1K)ではうまく機能しますが、コンテキストの長さが増すにつれて性能が著しく低下します。たとえば、32Kでは、10のモデルが強力な短い基準線の50%未満に低下します。トップパフォーマーの例外の1つであるGPT-4oでさえ、ほぼ完璧な99.3%から69.7%に低下します。私たちの分析では、これらの低下は、リテラルマッチが存在しない長いコンテキストでの注意メカニズムの直面する困難さからくるものであり、関連情報を取得することがより困難になっていることを示唆しています。
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary