Context is wat je nodig hebt: Het maximale effectieve contextvenster voor realistische beperkingen van LLM's
Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs
September 21, 2025
Auteurs: Norman Paulsen
cs.AI
Samenvatting
Aanbieders van grote taalmodelen (LLM's) pronken met grote aantallen voor maximale contextvenstergroottes. Om het praktische gebruik van contextvensters te testen, hebben we 1) een concept van het maximale effectieve contextvenster gedefinieerd, 2) een testmethode geformuleerd om de effectiviteit van een contextvenster over verschillende groottes en probleemtypen te evalueren, en 3) een gestandaardiseerde manier gecreëerd om de modelprestaties voor steeds grotere contextvenstergroottes te vergelijken om het breekpunt te vinden. We hebben honderdduizenden datapunten verzameld over verschillende modellen en significante verschillen gevonden tussen de gerapporteerde Maximale Contextvenstergrootte (MCW) en de Maximale Effectieve Contextvenstergrootte (MECW). Onze bevindingen tonen aan dat de MECW niet alleen drastisch verschilt van de MCW, maar ook verschuift op basis van het probleemtype. Een paar topmodellen in onze testgroep faalden al bij slechts 100 tokens in de context; de meeste vertoonden ernstige achteruitgang in nauwkeurigheid bij 1000 tokens in de context. Alle modellen bleven ver achter bij hun Maximale Contextvenster, soms tot wel 99 procent. Onze gegevens laten zien dat het Maximale Effectieve Contextvenster verschuift op basis van het type probleem dat wordt aangeboden, wat duidelijke en bruikbare inzichten biedt over hoe de modelnauwkeurigheid kan worden verbeterd en de hallucinatiefrequentie van modellen kan worden verminderd.
English
Large language model (LLM) providers boast big numbers for maximum context
window sizes. To test the real world use of context windows, we 1) define a
concept of maximum effective context window, 2) formulate a testing method of a
context window's effectiveness over various sizes and problem types, and 3)
create a standardized way to compare model efficacy for increasingly larger
context window sizes to find the point of failure. We collected hundreds of
thousands of data points across several models and found significant
differences between reported Maximum Context Window (MCW) size and Maximum
Effective Context Window (MECW) size. Our findings show that the MECW is, not
only, drastically different from the MCW but also shifts based on the problem
type. A few top of the line models in our test group failed with as little as
100 tokens in context; most had severe degradation in accuracy by 1000 tokens
in context. All models fell far short of their Maximum Context Window by as
much as 99 percent. Our data reveals the Maximum Effective Context Window
shifts based on the type of problem provided, offering clear and actionable
insights into how to improve model accuracy and decrease model hallucination
rates.