ChatPaper.aiChatPaper

Le Contexte Est Ce Dont Vous Avez Besoin : La Fenêtre de Contexte Maximale Efficace pour les Limites Réelles des LLM

Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs

September 21, 2025
papers.authors: Norman Paulsen
cs.AI

papers.abstract

Les fournisseurs de grands modèles de langage (LLM) mettent en avant des chiffres impressionnants concernant la taille maximale des fenêtres de contexte. Pour tester l'utilisation réelle de ces fenêtres de contexte, nous avons 1) défini un concept de fenêtre de contexte maximale effective, 2) formulé une méthode de test de l'efficacité d'une fenêtre de contexte pour différentes tailles et types de problèmes, et 3) créé une méthode standardisée pour comparer l'efficacité des modèles pour des tailles de fenêtres de contexte de plus en plus grandes, afin d'identifier le point de défaillance. Nous avons collecté des centaines de milliers de points de données sur plusieurs modèles et constaté des différences significatives entre la taille de la fenêtre de contexte maximale (MCW) rapportée et la taille de la fenêtre de contexte maximale effective (MECW). Nos résultats montrent que la MECW est non seulement très différente de la MCW, mais qu'elle varie également en fonction du type de problème. Quelques modèles haut de gamme de notre groupe de test ont échoué avec seulement 100 tokens dans le contexte ; la plupart ont subi une dégradation sévère de leur précision dès 1000 tokens dans le contexte. Tous les modèles sont restés bien en deçà de leur fenêtre de contexte maximale, avec un écart allant jusqu'à 99 %. Nos données révèlent que la fenêtre de contexte maximale effective varie en fonction du type de problème posé, offrant des insights clairs et exploitables pour améliorer la précision des modèles et réduire les taux d'hallucination.
English
Large language model (LLM) providers boast big numbers for maximum context window sizes. To test the real world use of context windows, we 1) define a concept of maximum effective context window, 2) formulate a testing method of a context window's effectiveness over various sizes and problem types, and 3) create a standardized way to compare model efficacy for increasingly larger context window sizes to find the point of failure. We collected hundreds of thousands of data points across several models and found significant differences between reported Maximum Context Window (MCW) size and Maximum Effective Context Window (MECW) size. Our findings show that the MECW is, not only, drastically different from the MCW but also shifts based on the problem type. A few top of the line models in our test group failed with as little as 100 tokens in context; most had severe degradation in accuracy by 1000 tokens in context. All models fell far short of their Maximum Context Window by as much as 99 percent. Our data reveals the Maximum Effective Context Window shifts based on the type of problem provided, offering clear and actionable insights into how to improve model accuracy and decrease model hallucination rates.
PDF21October 1, 2025