ChatPaper.aiChatPaper

Kontext ist, was Sie brauchen: Das maximale effektive Kontextfenster für die realen Grenzen von LLMs

Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs

September 21, 2025
papers.authors: Norman Paulsen
cs.AI

papers.abstract

Anbieter von großen Sprachmodellen (LLMs) werben mit hohen Zahlen für die maximale Kontextfenstergröße. Um die praktische Anwendbarkeit von Kontextfenstern zu testen, haben wir 1) ein Konzept des maximalen effektiven Kontextfensters definiert, 2) eine Testmethode zur Bewertung der Effektivität eines Kontextfensters über verschiedene Größen und Problemtypen formuliert und 3) eine standardisierte Methode entwickelt, um die Modellleistung bei zunehmend größeren Kontextfenstergrößen zu vergleichen und den Punkt des Versagens zu ermitteln. Wir haben Hunderttausende von Datenpunkten über mehrere Modelle hinweg gesammelt und signifikante Unterschiede zwischen der angegebenen maximalen Kontextfenstergröße (MCW) und der maximalen effektiven Kontextfenstergröße (MECW) festgestellt. Unsere Ergebnisse zeigen, dass die MECW nicht nur erheblich von der MCW abweicht, sondern sich auch je nach Problemtyp verschiebt. Einige der besten Modelle in unserer Testgruppe versagten bereits bei nur 100 Tokens im Kontext; die meisten zeigten eine deutliche Verschlechterung der Genauigkeit bei 1000 Tokens im Kontext. Alle Modelle blieben weit hinter ihrer maximalen Kontextfenstergröße zurück, teilweise um bis zu 99 Prozent. Unsere Daten zeigen, dass sich das maximale effektive Kontextfenster je nach Art des gestellten Problems verschiebt, und bieten klare und umsetzbare Erkenntnisse, wie die Modellgenauigkeit verbessert und die Rate von Modellhalluzinationen verringert werden kann.
English
Large language model (LLM) providers boast big numbers for maximum context window sizes. To test the real world use of context windows, we 1) define a concept of maximum effective context window, 2) formulate a testing method of a context window's effectiveness over various sizes and problem types, and 3) create a standardized way to compare model efficacy for increasingly larger context window sizes to find the point of failure. We collected hundreds of thousands of data points across several models and found significant differences between reported Maximum Context Window (MCW) size and Maximum Effective Context Window (MECW) size. Our findings show that the MECW is, not only, drastically different from the MCW but also shifts based on the problem type. A few top of the line models in our test group failed with as little as 100 tokens in context; most had severe degradation in accuracy by 1000 tokens in context. All models fell far short of their Maximum Context Window by as much as 99 percent. Our data reveals the Maximum Effective Context Window shifts based on the type of problem provided, offering clear and actionable insights into how to improve model accuracy and decrease model hallucination rates.
PDF21October 1, 2025