LongRoPE: Erweiterung des Kontextfensters von LLMs über 2 Millionen Tokens hinausLongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
Ein großer Kontextfenster ist eine wünschenswerte Eigenschaft in großen Sprachmodellen (LLMs). Aufgrund der hohen Feinabstimmungskosten, der Knappheit langer Texte und der katastrophalen Werte, die durch neue Token-Positionen eingeführt werden, sind die derzeit erweiterten Kontextfenster jedoch auf etwa 128k Token begrenzt. Dieses Papier stellt LongRoPE vor, das erstmals das Kontextfenster vortrainierter LLMs auf beeindruckende 2048k Token erweitert, mit bis zu nur 1k Feinabstimmungsschritten bei Trainingslängen innerhalb von 256k, während die Leistung im ursprünglichen kurzen Kontextfenster erhalten bleibt. Dies wird durch drei Schlüsselinnovationen erreicht: (i) Wir identifizieren und nutzen zwei Formen von Nicht-Uniformitäten in der Positionsinterpolation durch eine effiziente Suche, was eine bessere Initialisierung für die Feinabstimmung bietet und eine 8-fache Erweiterung in Szenarien ohne Feinabstimmung ermöglicht; (ii) Wir führen eine progressive Erweiterungsstrategie ein, die zunächst ein 256k langes LLM feinabstimmt und dann eine zweite Positionsinterpolation auf dem feinabgestimmten erweiterten LLM durchführt, um ein 2048k Kontextfenster zu erreichen; (iii) Wir passen LongRoPE auf 8k Länge neu an, um die Leistung im kurzen Kontextfenster wiederherzustellen. Umfangreiche Experimente mit LLaMA2 und Mistral über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit unserer Methode. Modelle, die über LongRoPE erweitert wurden, behalten die ursprüngliche Architektur mit geringfügigen Modifikationen der Positions-Einbettung bei und können die meisten bestehenden Optimierungen wiederverwenden.