Minimale Feinabstimmung zur Freischaltung langer Ausgaben von LLMs mit hochwertigen Daten als Schlüssel
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Autoren: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Zusammenfassung
Mit der raschen Weiterentwicklung großer Sprachmodelle zur Unterstützung längerer Kontexte besteht eine bemerkenswerte Diskrepanz in ihrer Fähigkeit, längere Ausgaben zu generieren. Eine kürzlich durchgeführte Studie legt nahe, dass die Hauptursache für dieses Ungleichgewicht in dem Mangel an Daten mit langen Ausgaben während des Ausrichtungstrainings liegen könnte. Angesichts dieser Beobachtung werden Versuche unternommen, Grundlagenmodelle mit Daten neu auszurichten, die diese Lücke füllen, was zu Modellen führt, die in der Lage sind, umfangreiche Ausgaben zu generieren, wenn sie angewiesen werden. In diesem Paper untersuchen wir die Auswirkungen der Datenqualität bei der Abstimmung eines Modells für lange Ausgaben und die Möglichkeit, dies von den Ausgangspunkten menschenorientierter (Anweisungs- oder Chat-) Modelle aus zu tun. Durch sorgfältige Datenkuratierung zeigen wir, dass es möglich ist, ähnliche Leistungsverbesserungen in unseren abgestimmten Modellen zu erzielen, und das nur mit einem kleinen Bruchteil der Trainingsdaten und Rechenleistung. Darüber hinaus bewerten wir die Verallgemeinerbarkeit solcher Ansätze, indem wir unsere Abstimmungsrezepte auf mehrere Modelle anwenden. Unsere Ergebnisse legen nahe, dass, obwohl die Fähigkeiten zur Generierung langer Ausgaben bei verschiedenen Modellen von Haus aus variieren, unser Ansatz, sie mit hochwertigen Daten unter Verwendung geringer Rechenleistung abzustimmen, konsistent signifikante Verbesserungen bei allen Modellen erzielt, auf denen wir experimentiert haben. Wir haben unseren kuratierten Datensatz zur Abstimmung der Fähigkeit zum Verfassen langer Texte, die Implementierungen zur Modellabstimmung und -bewertung sowie die feinabgestimmten Modelle öffentlich zugänglich gemacht.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary