Erweiterung des Kontextfensters von LLMs mit 100 Beispielen
Extending LLMs' Context Window with 100 Samples
January 13, 2024
Autoren: Yikai Zhang, Junlong Li, Pengfei Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind dafür bekannt, nur begrenzte Extrapolationsfähigkeiten über ihren vortrainierten Kontextfenster hinaus zu besitzen, was ihre Anwendung bei nachgelagerten Aufgaben mit umfangreichen Eingaben einschränkt. Aktuelle Studien haben versucht, das Kontextfenster von LLMs durch die Modifikation von Rotary Position Embedding (RoPE) zu erweitern, einer weit verbreiteten Methode zur Positionskodierung, die von bekannten LLMs wie LLaMA, PaLM und GPT-NeoX verwendet wird. Bisherige Ansätze wie Position Interpolation (PI) und YaRN sind jedoch ressourcenintensiv und es fehlen vergleichende Experimente, um ihre Anwendbarkeit zu bewerten. In dieser Arbeit identifizieren wir die inhärente Notwendigkeit, dass die Aufmerksamkeitsentropie von LLMs (d.h. die Informationsentropie der Aufmerksamkeitswerte) stabil bleiben muss, und führen eine neuartige Erweiterung von RoPE ein, die die Anpassung der Basisfrequenz von RoPE mit der Skalierung der Aufmerksamkeitslogits kombiniert, um LLMs effizient an ein größeres Kontextfenster anzupassen. Wir validieren die Überlegenheit unserer Methode sowohl in Bezug auf die Feinabstimmungsleistung als auch auf die Robustheit bei verschiedenen Kontextfenstergrößen in verschiedenen kontextintensiven Aufgaben. Bemerkenswerterweise erweitert unsere Methode das Kontextfenster von LLaMA-2-7B-Chat auf 16.384 mit nur 100 Beispielen und 6 Trainingsschritten, was eine außergewöhnliche Effizienz zeigt. Abschließend untersuchen wir auch, wie Datenzusammensetzungen und Trainingscurricula die Erweiterung des Kontextfensters für spezifische nachgelagerte Aufgaben beeinflussen, und schlagen vor, LLMs mit langen Konversationen zu feinabzustimmen, als einen guten Ausgangspunkt. Wir veröffentlichen unseren Code und die SFT-Daten unter https://github.com/GAIR-NLP/Entropy-ABF.
English
Large Language Models (LLMs) are known to have limited extrapolation ability
beyond their pre-trained context window, constraining their application in
downstream tasks with lengthy inputs. Recent studies have sought to extend
LLMs' context window by modifying rotary position embedding (RoPE), a popular
position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and
GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are
resource-intensive and lack comparative experiments to assess their
applicability. In this work, we identify the inherent need for LLMs' attention
entropy (i.e. the information entropy of attention scores) to maintain
stability and introduce a novel extension to RoPE which combines adjusting
RoPE's base frequency and scaling the attention logits to help LLMs efficiently
adapt to a larger context window. We validate the superiority of our method in
both fine-tuning performance and robustness across different context window
sizes on various context-demanding tasks. Notably, our method extends the
context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6
training steps, showcasing extraordinary efficiency. Finally, we also explore
how data compositions and training curricula affect context window extension
for specific downstream tasks, suggesting fine-tuning LLMs with lengthy
conversations as a good starting point. We release our code and SFT data at
https://github.com/GAIR-NLP/Entropy-ABF.