O Contexto É o Que Você Precisa: A Janela de Contexto Efetivo Máxima para os Limites do Mundo Real dos LLMs
Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs
September 21, 2025
Autores: Norman Paulsen
cs.AI
Resumo
Provedores de grandes modelos de linguagem (LLMs) destacam números impressionantes para o tamanho máximo das janelas de contexto. Para testar o uso real dessas janelas de contexto, nós 1) definimos um conceito de janela de contexto máxima efetiva, 2) formulamos um método de teste para avaliar a eficácia da janela de contexto em diversos tamanhos e tipos de problemas, e 3) criamos uma forma padronizada de comparar a eficácia dos modelos para tamanhos crescentes de janelas de contexto, a fim de identificar o ponto de falha. Coletamos centenas de milhares de pontos de dados em vários modelos e encontramos diferenças significativas entre o tamanho da Janela de Contexto Máxima (MCW) reportada e o tamanho da Janela de Contexto Máxima Efetiva (MECW). Nossos resultados mostram que a MECW não apenas é drasticamente diferente da MCW, mas também varia de acordo com o tipo de problema. Alguns dos modelos mais avançados em nosso grupo de teste falharam com apenas 100 tokens no contexto; a maioria apresentou uma degradação severa na precisão com 1000 tokens no contexto. Todos os modelos ficaram muito aquém de sua Janela de Contexto Máxima, em até 99%. Nossos dados revelam que a Janela de Contexto Máxima Efetiva varia conforme o tipo de problema fornecido, oferecendo insights claros e acionáveis sobre como melhorar a precisão dos modelos e reduzir as taxas de alucinação.
English
Large language model (LLM) providers boast big numbers for maximum context
window sizes. To test the real world use of context windows, we 1) define a
concept of maximum effective context window, 2) formulate a testing method of a
context window's effectiveness over various sizes and problem types, and 3)
create a standardized way to compare model efficacy for increasingly larger
context window sizes to find the point of failure. We collected hundreds of
thousands of data points across several models and found significant
differences between reported Maximum Context Window (MCW) size and Maximum
Effective Context Window (MECW) size. Our findings show that the MECW is, not
only, drastically different from the MCW but also shifts based on the problem
type. A few top of the line models in our test group failed with as little as
100 tokens in context; most had severe degradation in accuracy by 1000 tokens
in context. All models fell far short of their Maximum Context Window by as
much as 99 percent. Our data reveals the Maximum Effective Context Window
shifts based on the type of problem provided, offering clear and actionable
insights into how to improve model accuracy and decrease model hallucination
rates.