Il Contesto è Ciò di Cui Hai Bisogno: La Massima Finestra di Contesto Efficace per i Limiti Reali degli LLM nel Mondo Reale
Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs
September 21, 2025
Autori: Norman Paulsen
cs.AI
Abstract
I fornitori di modelli linguistici di grandi dimensioni (LLM) vantano numeri impressionanti per le dimensioni massime delle finestre di contesto. Per testare l'uso reale delle finestre di contesto, abbiamo 1) definito un concetto di finestra di contesto massima efficace, 2) formulato un metodo di test per valutare l'efficacia di una finestra di contesto su varie dimensioni e tipi di problemi, e 3) creato un modo standardizzato per confrontare l'efficacia del modello con dimensioni di finestra di contesto sempre più grandi, al fine di individuare il punto di fallimento. Abbiamo raccolto centinaia di migliaia di punti dati su diversi modelli e abbiamo riscontrato differenze significative tra la dimensione della Finestra di Contesto Massima (MCW) riportata e quella della Finestra di Contesto Massima Efficace (MECW). I nostri risultati mostrano che la MECW non solo è drasticamente diversa dalla MCW, ma varia anche in base al tipo di problema. Alcuni dei modelli più avanzati nel nostro gruppo di test hanno fallito con appena 100 token nel contesto; la maggior parte ha mostrato un grave deterioramento dell'accuratezza entro i 1000 token nel contesto. Tutti i modelli sono rimasti molto al di sotto della loro Finestra di Contesto Massima, fino al 99 percento. I nostri dati rivelano che la Finestra di Contesto Massima Efficace varia in base al tipo di problema fornito, offrendo chiare e praticabili indicazioni su come migliorare l'accuratezza del modello e ridurre i tassi di allucinazione del modello.
English
Large language model (LLM) providers boast big numbers for maximum context
window sizes. To test the real world use of context windows, we 1) define a
concept of maximum effective context window, 2) formulate a testing method of a
context window's effectiveness over various sizes and problem types, and 3)
create a standardized way to compare model efficacy for increasingly larger
context window sizes to find the point of failure. We collected hundreds of
thousands of data points across several models and found significant
differences between reported Maximum Context Window (MCW) size and Maximum
Effective Context Window (MECW) size. Our findings show that the MECW is, not
only, drastically different from the MCW but also shifts based on the problem
type. A few top of the line models in our test group failed with as little as
100 tokens in context; most had severe degradation in accuracy by 1000 tokens
in context. All models fell far short of their Maximum Context Window by as
much as 99 percent. Our data reveals the Maximum Effective Context Window
shifts based on the type of problem provided, offering clear and actionable
insights into how to improve model accuracy and decrease model hallucination
rates.