Контекст — это то, что вам нужно: максимальный эффективный размер контекстного окна для реальных ограничений языковых моделей.
Context Is What You Need: The Maximum Effective Context Window for Real World Limits of LLMs
September 21, 2025
Авторы: Norman Paulsen
cs.AI
Аннотация
Поставщики крупных языковых моделей (LLM) гордятся большими числами, обозначающими максимальные размеры контекстного окна. Чтобы проверить практическое использование контекстных окон, мы 1) определяем концепцию максимального эффективного контекстного окна, 2) формулируем метод тестирования эффективности контекстного окна для различных размеров и типов задач и 3) создаем стандартизированный способ сравнения эффективности моделей для постепенно увеличивающихся размеров контекстного окна с целью обнаружения точки сбоя. Мы собрали сотни тысяч точек данных для нескольких моделей и обнаружили значительные различия между заявленным размером Максимального Контекстного Окна (MCW) и размером Максимального Эффективного Контекстного Окна (MECW). Наши результаты показывают, что MECW не только существенно отличается от MCW, но и изменяется в зависимости от типа задачи. Некоторые передовые модели в нашей тестовой группе давали сбои уже при 100 токенах в контексте; у большинства наблюдалось значительное снижение точности при 1000 токенах в контексте. Все модели значительно не дотягивали до своего Максимального Контекстного Окна, иногда на целых 99 процентов. Наши данные показывают, что Максимальное Эффективное Контекстное Окно изменяется в зависимости от типа предоставленной задачи, что дает четкие и практические рекомендации по улучшению точности моделей и снижению частоты их "галлюцинаций".
English
Large language model (LLM) providers boast big numbers for maximum context
window sizes. To test the real world use of context windows, we 1) define a
concept of maximum effective context window, 2) formulate a testing method of a
context window's effectiveness over various sizes and problem types, and 3)
create a standardized way to compare model efficacy for increasingly larger
context window sizes to find the point of failure. We collected hundreds of
thousands of data points across several models and found significant
differences between reported Maximum Context Window (MCW) size and Maximum
Effective Context Window (MECW) size. Our findings show that the MECW is, not
only, drastically different from the MCW but also shifts based on the problem
type. A few top of the line models in our test group failed with as little as
100 tokens in context; most had severe degradation in accuracy by 1000 tokens
in context. All models fell far short of their Maximum Context Window by as
much as 99 percent. Our data reveals the Maximum Effective Context Window
shifts based on the type of problem provided, offering clear and actionable
insights into how to improve model accuracy and decrease model hallucination
rates.