EndPrompt: Эффективное расширение длинного контекста посредством терминального закрепления

Аннотация

Расширение окна контекста больших языковых моделей обычно требует обучения на последовательностях целевой длины, что сопряжено с квадратичными затратами памяти и вычислений, делающими долгоконтекстную адаптацию дорогостоящей и трудно воспроизводимой. Мы предлагаем EndPrompt — метод, обеспечивающий эффективное расширение контекста с использованием только коротких обучающих последовательностей. Ключевая идея заключается в том, что для ознакомления модели с дальними относительными позиционными расстояниями не требуется конструировать полноразмерные входные данные: мы сохраняем исходный короткий контекст как нетронутый первый сегмент и добавляем краткий терминальный промпт в качестве второго сегмента, назначая ему позиционные индексы, близкие к целевой длине контекста. Такая двухсегментная конструкция вводит как локальные, так и дальние относительные расстояния в рамках короткой физической последовательности, сохраняя при этом семантическую непрерывность обучающего текста — свойство, отсутствующее в методах чанковой симуляции, разбивающих непрерывный контекст. Мы предоставляем теоретический анализ, основанный на вращательном позиционном кодировании и неравенстве Бернштейна, показывающий, что интерполяция позиций накладывает строгое ограничение гладкости на функцию внимания, а общие параметры Transformer дополнительно подавляют нестабильную экстраполяцию на ненаблюдаемые промежуточные расстояния. Применённый к моделям семейства LLaMA, расширяющим окно контекста с 8K до 64K, EndPrompt достигает среднего показателя RULER 76.03 и наивысшего среднего показателя на LongBench, превосходя LCEG (72.24), LongLoRA (72.95) и полноразмерную тонкую настройку (69.23) при значительно меньших вычислительных затратах. Эти результаты демонстрируют, что обобщение на длинный контекст может быть индуцировано разреженным позиционным контролем, ставя под сомнение преобладающее предположение о необходимости плотного обучения на длинных последовательностях для надёжного расширения окна контекста. Код доступен по адресу https://github.com/clx1415926/EndPrompt.

English

Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.