ChatPaper.aiChatPaper

EndPrompt : Extension efficace de long contexte via ancrage terminal

EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14, 2026
Auteurs: Han Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin
cs.AI

Résumé

Étendre la fenêtre de contexte des grands modèles de langage nécessite généralement un entraînement sur des séquences de la longueur cible, ce qui entraîne des coûts quadratiques de mémoire et de calcul rendant l'adaptation au long contexte coûteuse et difficile à reproduire. Nous proposons EndPrompt, une méthode qui permet une extension efficace du contexte en utilisant uniquement des séquences d'entraînement courtes. L'idée centrale est qu'exposer un modèle à des distances positionnelles relatives longues ne nécessite pas de construire des entrées de pleine longueur : nous conservons le contexte court original comme un premier segment intact et ajoutons une brève invite terminale comme second segment, en lui attribuant des indices positionnels proches de la longueur cible du contexte. Cette construction à deux segments introduit à la fois des distances relatives locales et longues au sein d'une séquence physique courte, tout en maintenant la continuité sémantique du texte d'entraînement — une propriété absente dans les approches de simulation par blocs qui divisent le contexte contigu. Nous fournissons une analyse théorique fondée sur le Rotary Position Embedding et l'inégalité de Bernstein, montrant que l'interpolation de position induit une contrainte de régularité rigoureuse sur la fonction d'attention, et que les paramètres partagés du Transformer suppriment davantage l'extrapolation instable vers des distances intermédiaires non observées. Appliquée aux modèles de la famille LLaMA pour étendre la fenêtre de contexte de 8K à 64K, EndPrompt atteint un score RULER moyen de 76,03 et la moyenne la plus élevée sur LongBench, surpassant LCEG (72,24), LongLoRA (72,95) et le fine-tuning sur séquence complète (69,23) tout en nécessitant nettement moins de calculs. Ces résultats démontrent que la généralisation au long contexte peut être induite à partir d'une supervision positionnelle éparse, remettant en question l'hypothèse courante selon laquelle un entraînement dense sur séquences longues est nécessaire pour une extension fiable de la fenêtre de contexte. Le code est disponible à l'adresse https://github.com/clx1415926/EndPrompt.
English
Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.