EndPrompt: Effiziente Langkontext-Erweiterung durch Terminal-Ankerung

Zusammenfassung

Die Erweiterung des Kontextfensters großer Sprachmodelle erfordert in der Regel ein Training mit Sequenzen der Ziellänge, was quadratische Speicher- und Rechenkosten verursacht und die Langkontext-Anpassung teuer und schwer reproduzierbar macht. Wir schlagen EndPrompt vor, eine Methode, die eine effektive Kontexterweiterung allein mit kurzen Trainingssequenzen ermöglicht. Die Kernidee besteht darin, dass die Exposition eines Modells gegenüber weitreichenden relativen Positionsabständen nicht die Konstruktion vollständiger Eingaben erfordert: Wir behalten den ursprünglichen kurzen Kontext als intaktes erstes Segment bei und fügen einen kurzen terminalen Prompt als zweites Segment hinzu, dem wir Positionsindizes nahe der Zielkontextlänge zuweisen. Diese Zwei-Segment-Konstruktion führt sowohl lokale als auch weitreichende relative Abstände innerhalb einer kurzen physischen Sequenz ein, während die semantische Kontinuität des Trainingstextes erhalten bleibt – eine Eigenschaft, die bei chunk-basierten Simulationsansätzen fehlt, die zusammenhängenden Kontext aufteilen. Wir liefern eine theoretische Analyse auf der Grundlage des Rotary Position Embedding und der Bernstein-Ungleichung und zeigen, dass die Positionsinterpolation eine strenge Glättebedingung für die Aufmerksamkeitsfunktion induziert, wobei gemeinsame Transformer-Parameter instabile Extrapolation auf unbeobachtete Zwischenabstände weiter unterdrücken. Angewandt auf Modelle der LLaMA-Familie, die das Kontextfenster von 8K auf 64K erweitern, erreicht EndPrompt einen durchschnittlichen RULER-Wert von 76,03 und den höchsten Durchschnittswert auf LongBench, übertrifft LCEG (72,24), LongLoRA (72,95) und die Feinabstimmung mit voller Länge (69,23) bei deutlich geringerem Rechenaufwand. Diese Ergebnisse zeigen, dass eine Langkontext-Generalisierung aus spärlicher Positionsüberwachung induziert werden kann, was die vorherrschende Annahme in Frage stellt, dass dichtes Langsequenz-Training für eine zuverlässige Kontextfenster-Erweiterung notwendig sei. Der Code ist verfügbar unter https://github.com/clx1415926/EndPrompt.

English

Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.