コンテキストこそが求められるもの:現実世界の制約下におけるLLMの最大有効コンテキストウィンドウ
Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs
September 21, 2025
著者: Norman Paulsen
cs.AI
要旨
大規模言語モデル(LLM)の提供者は、最大コンテキストウィンドウサイズについて大きな数値を誇示している。現実世界でのコンテキストウィンドウの使用を検証するため、我々は1)最大有効コンテキストウィンドウの概念を定義し、2)様々なサイズと問題タイプにおけるコンテキストウィンドウの有効性をテストする方法を策定し、3)モデルの有効性を比較するための標準化された方法を作成し、失敗点を見つけるために、次第に大きくなるコンテキストウィンドウサイズを検証した。我々は複数のモデルにわたって数十万のデータポイントを収集し、報告された最大コンテキストウィンドウ(MCW)サイズと最大有効コンテキストウィンドウ(MECW)サイズの間に有意な差異があることを発見した。我々の調査結果は、MECWがMCWとは大幅に異なるだけでなく、問題タイプに基づいて変化することを示している。テストグループ内のいくつかの最先端モデルは、コンテキスト内のトークン数がわずか100でも失敗し、ほとんどのモデルはコンテキスト内のトークン数が1000に達すると精度が大幅に低下した。全てのモデルは、最大コンテキストウィンドウに比べて最大99%も不足していた。我々のデータは、提供される問題タイプに基づいて最大有効コンテキストウィンドウが変化することを明らかにし、モデルの精度を向上させ、モデルの幻覚率を低下させるための明確で実行可能な洞察を提供する。
English
Large language model (LLM) providers boast big numbers for maximum context
window sizes. To test the real world use of context windows, we 1) define a
concept of maximum effective context window, 2) formulate a testing method of a
context window's effectiveness over various sizes and problem types, and 3)
create a standardized way to compare model efficacy for increasingly larger
context window sizes to find the point of failure. We collected hundreds of
thousands of data points across several models and found significant
differences between reported Maximum Context Window (MCW) size and Maximum
Effective Context Window (MECW) size. Our findings show that the MECW is, not
only, drastically different from the MCW but also shifts based on the problem
type. A few top of the line models in our test group failed with as little as
100 tokens in context; most had severe degradation in accuracy by 1000 tokens
in context. All models fell far short of their Maximum Context Window by as
much as 99 percent. Our data reveals the Maximum Effective Context Window
shifts based on the type of problem provided, offering clear and actionable
insights into how to improve model accuracy and decrease model hallucination
rates.