Erweiterung des Kontextfensters von LLMs mit 100 Beispielen

papers.abstract

Große Sprachmodelle (LLMs) sind dafür bekannt, nur begrenzte Extrapolationsfähigkeiten über ihren vortrainierten Kontextfenster hinaus zu besitzen, was ihre Anwendung bei nachgelagerten Aufgaben mit umfangreichen Eingaben einschränkt. Aktuelle Studien haben versucht, das Kontextfenster von LLMs durch die Modifikation von Rotary Position Embedding (RoPE) zu erweitern, einer weit verbreiteten Methode zur Positionskodierung, die von bekannten LLMs wie LLaMA, PaLM und GPT-NeoX verwendet wird. Bisherige Ansätze wie Position Interpolation (PI) und YaRN sind jedoch ressourcenintensiv und es fehlen vergleichende Experimente, um ihre Anwendbarkeit zu bewerten. In dieser Arbeit identifizieren wir die inhärente Notwendigkeit, dass die Aufmerksamkeitsentropie von LLMs (d.h. die Informationsentropie der Aufmerksamkeitswerte) stabil bleiben muss, und führen eine neuartige Erweiterung von RoPE ein, die die Anpassung der Basisfrequenz von RoPE mit der Skalierung der Aufmerksamkeitslogits kombiniert, um LLMs effizient an ein größeres Kontextfenster anzupassen. Wir validieren die Überlegenheit unserer Methode sowohl in Bezug auf die Feinabstimmungsleistung als auch auf die Robustheit bei verschiedenen Kontextfenstergrößen in verschiedenen kontextintensiven Aufgaben. Bemerkenswerterweise erweitert unsere Methode das Kontextfenster von LLaMA-2-7B-Chat auf 16.384 mit nur 100 Beispielen und 6 Trainingsschritten, was eine außergewöhnliche Effizienz zeigt. Abschließend untersuchen wir auch, wie Datenzusammensetzungen und Trainingscurricula die Erweiterung des Kontextfensters für spezifische nachgelagerte Aufgaben beeinflussen, und schlagen vor, LLMs mit langen Konversationen zu feinabzustimmen, als einen guten Ausgangspunkt. Wir veröffentlichen unseren Code und die SFT-Daten unter https://github.com/GAIR-NLP/Entropy-ABF.

English

Large Language Models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have sought to extend LLMs' context window by modifying rotary position embedding (RoPE), a popular position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are resource-intensive and lack comparative experiments to assess their applicability. In this work, we identify the inherent need for LLMs' attention entropy (i.e. the information entropy of attention scores) to maintain stability and introduce a novel extension to RoPE which combines adjusting RoPE's base frequency and scaling the attention logits to help LLMs efficiently adapt to a larger context window. We validate the superiority of our method in both fine-tuning performance and robustness across different context window sizes on various context-demanding tasks. Notably, our method extends the context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6 training steps, showcasing extraordinary efficiency. Finally, we also explore how data compositions and training curricula affect context window extension for specific downstream tasks, suggesting fine-tuning LLMs with lengthy conversations as a good starting point. We release our code and SFT data at https://github.com/GAIR-NLP/Entropy-ABF.

Erweiterung des Kontextfensters von LLMs mit 100 Beispielen

Extending LLMs' Context Window with 100 Samples

papers.abstract

Support