長文脈言語モデルの制御可能な検証
A Controllable Examination for Long-Context Language Models
June 3, 2025
著者: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI
要旨
既存の長文脈言語モデル(LCLM)評価フレームワークは、大まかに実世界タスクと合成タスクの2つに分類される。これらのアプローチは有用である一方、それぞれ固有の限界を伴っている。実世界タスクは解釈や特性化が複雑すぎる上、データ汚染の影響を受けやすい。一方、合成タスクはしばしば「干し草の山の中の針(NIAH)」形式を採用しており、「針」と「干し草の山」の間の一貫性の欠如が、現実的なアプリケーションの代理としての妥当性を損なっている。これらの課題に対応するため、我々は理想的な長文脈評価フレームワークが持つべき3つの本質的特徴を提唱する:シームレスな文脈、制御可能な設定、そして健全な評価である。本研究では、LongBioBenchという新たなベンチマークを紹介する。これは人工的に生成された伝記を利用し、理解、推論、信頼性の次元でLCLMを評価するための制御環境を提供する。合計18のLCLMを含む実験的評価により、ほとんどのモデルが検索結果に対する意味理解と基本的な推論において依然として欠陥を示し、文脈長が増すにつれて信頼性が低下することが実証された。さらに分析を進めると、既存の合成ベンチマークが採用している設計上の選択、例えば文脈的非一貫性、数値的な針、ディストラクターの不在などが、モデルの長文脈能力をテストする上で脆弱性を生み出していることが明らかになった。また、長文脈継続事前学習は主にRoPE埋め込みを調整して拡張された文脈長に対応していることも示された。要約すると、従来の合成ベンチマークと比較して、LongBioBenchは本物の言語タスクを反映しつつ制御性を維持するという点でより優れたトレードオフを達成しており、高い解釈可能性と設定可能性を備えている。
English
Existing frameworks for evaluating long-context language models (LCLM) can be
broadly categorized into real-world and synthetic tasks. Despite their utility,
both approaches are accompanied by certain intrinsic limitations. Real-world
tasks are too complex to interpret or characterize and are susceptible to data
contamination. In contrast, synthetic tasks often adopt the
needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the
"needle" and the "haystack" compromises their validity as proxies for realistic
applications. In response to these challenges, we posit that an ideal
long-context evaluation framework should be characterized by three essential
features: seamless context, controllable setting, and
sound evaluation. This study introduces LongBioBench, a
novel benchmark that utilizes artificially generated biographies as a
controlled environment for assessing LCLMs across dimensions of
understanding, reasoning, and trustworthiness.
Our experimental evaluation, which includes 18 LCLMs in total,
demonstrates that most models still exhibit deficiencies in semantic
understanding and elementary reasoning over retrieved results and are less
trustworthy as context length increases. Our further analysis indicates some
design choices employed by existing synthetic benchmarks, such as contextual
non-coherence, numerical needles, and the absence of distractors, rendering
them vulnerable to test the model long-context capabilities. Moreover, we also
reveal that long-context continual pretraining primarily adjusts RoPE embedding
to accommodate extended context lengths. To sum up, compared to previous
synthetic benchmarks, LongBioBench achieves a better trade-off between
mirroring authentic language tasks and maintaining controllability, and is
highly interpretable and configurable.