EndPrompt: Extensão Eficiente de Contexto Longo via Ancoragem Terminal

Resumo

Estender a janela de contexto de modelos de linguagem de grande porte normalmente requer treinamento em sequências com o comprimento alvo, incorrendo em custos quadráticos de memória e computação que tornam a adaptação de contexto longo cara e difícil de reproduzir. Propomos o EndPrompt, um método que alcança extensão de contexto efetiva usando apenas sequências curtas de treinamento. A intuição central é que expor um modelo a distâncias posicionais relativas de longo alcance não requer a construção de entradas de comprimento total: preservamos o contexto curto original como um primeiro segmento intacto e acrescentamos um breve prompt terminal como segundo segmento, atribuindo a ele índices posicionais próximos ao comprimento alvo da janela de contexto. Essa construção de dois segmentos introduz distâncias relativas locais e de longo alcance dentro de uma sequência física curta, mantendo a continuidade semântica do texto de treinamento—uma propriedade ausente em abordagens de simulação baseadas em blocos que dividem o contexto contíguo. Fornecemos uma análise teórica fundamentada no Rotary Position Embedding e na desigualdade de Bernstein, mostrando que a interpolação de posições impõe uma restrição rigorosa de suavidade sobre a função de atenção, com parâmetros compartilhados do Transformer suprimindo ainda mais a extrapolação instável para distâncias intermediárias não observadas. Aplicado a modelos da família LLaMA que estendem a janela de contexto de 8K para 64K, o EndPrompt atinge uma pontuação RULER média de 76,03 e a maior média no LongBench, superando LCEG (72,24), LongLoRA (72,95) e o ajuste fino de comprimento total (69,23), ao mesmo tempo que requer substancialmente menos computação. Esses resultados demonstram que a generalização de contexto longo pode ser induzida a partir de supervisão posicional esparsa, desafiando a suposição predominante de que o treinamento denso de sequências longas é necessário para uma extensão confiável da janela de contexto. O código está disponível em https://github.com/clx1415926/EndPrompt.

English

Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.