LongAlign: Ein Rezept für die Langkontext-Ausrichtung von großen Sprachmodellen
LongAlign: A Recipe for Long Context Alignment of Large Language Models
January 31, 2024
Autoren: Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li
cs.AI
Zusammenfassung
Die Erweiterung großer Sprachmodelle, um lange Kontexte effektiv zu verarbeiten, erfordert eine Instruktions-Feinabstimmung auf Eingabesequenzen ähnlicher Länge. Um dies zu erreichen, präsentieren wir LongAlign – ein Rezept für Instruktionsdaten, Training und Evaluation zur Ausrichtung auf lange Kontexte. Zunächst erstellen wir einen langen Instruktionsfolge-Datensatz mit Self-Instruct. Um die Datenvielfalt sicherzustellen, deckt er eine breite Palette von Aufgaben aus verschiedenen langen Kontextquellen ab. Zweitens verwenden wir die Strategien des Packens und sortierten Batchings, um das überwachte Feinabstimmen auf Daten mit variierenden Längenverteilungen zu beschleunigen. Zusätzlich entwickeln wir eine Methode zur Gewichtung des Verlusts, um den Beitrag zum Verlust über verschiedene Sequenzen während des Packtrainings auszugleichen. Drittens führen wir den LongBench-Chat-Benchmark ein, um die Fähigkeiten zur Instruktionsfolge bei Abfragen mit einer Länge von 10k bis 100k zu bewerten. Experimente zeigen, dass LongAlign bestehende Rezepte für LLMs in Aufgaben mit langen Kontexten um bis zu 30\% übertrifft, während gleichzeitig die Kompetenz im Umgang mit kurzen, generischen Aufgaben erhalten bleibt. Der Code, die Daten und die langausgerichteten Modelle sind unter https://github.com/THUDM/LongAlign quelloffen verfügbar.
English
Extending large language models to effectively handle long contexts requires
instruction fine-tuning on input sequences of similar length. To address this,
we present LongAlign -- a recipe of the instruction data, training, and
evaluation for long context alignment. First, we construct a long
instruction-following dataset using Self-Instruct. To ensure the data
diversity, it covers a broad range of tasks from various long context sources.
Second, we adopt the packing and sorted batching strategies to speed up
supervised fine-tuning on data with varied length distributions. Additionally,
we develop a loss weighting method to balance the contribution to the loss
across different sequences during packing training. Third, we introduce the
LongBench-Chat benchmark for evaluating instruction-following capabilities on
queries of 10k-100k in length. Experiments show that LongAlign outperforms
existing recipes for LLMs in long context tasks by up to 30\%, while also
maintaining their proficiency in handling short, generic tasks. The code, data,
and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.