EndPrompt: Extensión eficiente de contexto largo mediante Anclaje Terminal

Resumen

Ampliar la ventana de contexto de los modelos de lenguaje grandes típicamente requiere entrenar con secuencias de la longitud objetivo, lo que conlleva costos cuadráticos de memoria y cómputo que hacen que la adaptación a contextos largos sea costosa y difícil de reproducir. Proponemos EndPrompt, un método que logra una extensión efectiva del contexto utilizando únicamente secuencias de entrenamiento cortas. La idea central es que exponer un modelo a distancias posicionales relativas de largo alcance no requiere construir entradas de longitud completa: preservamos el contexto corto original como un primer segmento intacto y añadimos un breve mensaje terminal como segundo segmento, asignándole índices posicionales cercanos a la longitud objetivo del contexto. Esta construcción de dos segmentos introduce distancias relativas tanto locales como de largo alcance dentro de una secuencia física corta, manteniendo al mismo tiempo la continuidad semántica del texto de entrenamiento—una propiedad ausente en los enfoques de simulación basados en fragmentos que dividen el contexto contiguo. Proporcionamos un análisis teórico fundamentado en el Rotary Position Embedding y la desigualdad de Bernstein, mostrando que la interpolación de posiciones impone una restricción de suavidad rigurosa sobre la función de atención, y que los parámetros compartidos del Transformer suprimen aún más la extrapolación inestable a distancias intermedias no observadas. Aplicado a modelos de la familia LLaMA para extender la ventana de contexto de 8K a 64K, EndPrompt logra una puntuación RULER promedio de 76.03 y el promedio más alto en LongBench, superando a LCEG (72.24), LongLoRA (72.95) y el ajuste fino de longitud completa (69.23), requiriendo sustancialmente menos cómputo. Estos resultados demuestran que la generalización a contextos largos puede inducirse a partir de una supervisión posicional dispersa, desafiando la suposición predominante de que es necesario entrenar con secuencias largas densas para una extensión confiable de la ventana de contexto. El código está disponible en https://github.com/clx1415926/EndPrompt.

English

Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.