Il Contesto è Ciò di Cui Hai Bisogno: La Massima Finestra di Contesto Efficace per i Limiti Reali degli LLM nel Mondo Reale

Abstract

I fornitori di modelli linguistici di grandi dimensioni (LLM) vantano numeri impressionanti per le dimensioni massime delle finestre di contesto. Per testare l'uso reale delle finestre di contesto, abbiamo 1) definito un concetto di finestra di contesto massima efficace, 2) formulato un metodo di test per valutare l'efficacia di una finestra di contesto su varie dimensioni e tipi di problemi, e 3) creato un modo standardizzato per confrontare l'efficacia del modello con dimensioni di finestra di contesto sempre più grandi, al fine di individuare il punto di fallimento. Abbiamo raccolto centinaia di migliaia di punti dati su diversi modelli e abbiamo riscontrato differenze significative tra la dimensione della Finestra di Contesto Massima (MCW) riportata e quella della Finestra di Contesto Massima Efficace (MECW). I nostri risultati mostrano che la MECW non solo è drasticamente diversa dalla MCW, ma varia anche in base al tipo di problema. Alcuni dei modelli più avanzati nel nostro gruppo di test hanno fallito con appena 100 token nel contesto; la maggior parte ha mostrato un grave deterioramento dell'accuratezza entro i 1000 token nel contesto. Tutti i modelli sono rimasti molto al di sotto della loro Finestra di Contesto Massima, fino al 99 percento. I nostri dati rivelano che la Finestra di Contesto Massima Efficace varia in base al tipo di problema fornito, offrendo chiare e praticabili indicazioni su come migliorare l'accuratezza del modello e ridurre i tassi di allucinazione del modello.

English

Large language model (LLM) providers boast big numbers for maximum context window sizes. To test the real world use of context windows, we 1) define a concept of maximum effective context window, 2) formulate a testing method of a context window's effectiveness over various sizes and problem types, and 3) create a standardized way to compare model efficacy for increasingly larger context window sizes to find the point of failure. We collected hundreds of thousands of data points across several models and found significant differences between reported Maximum Context Window (MCW) size and Maximum Effective Context Window (MECW) size. Our findings show that the MECW is, not only, drastically different from the MCW but also shifts based on the problem type. A few top of the line models in our test group failed with as little as 100 tokens in context; most had severe degradation in accuracy by 1000 tokens in context. All models fell far short of their Maximum Context Window by as much as 99 percent. Our data reveals the Maximum Effective Context Window shifts based on the type of problem provided, offering clear and actionable insights into how to improve model accuracy and decrease model hallucination rates.

Il Contesto è Ciò di Cui Hai Bisogno: La Massima Finestra di Contesto Efficace per i Limiti Reali degli LLM nel Mondo Reale

Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs

Abstract

Support