ChatPaper.aiChatPaper

Instruktions-Mining: Auswahl hochwertiger Instruktionsdaten für große Sprachmodelle

Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

July 12, 2023
Autoren: Yihan Cao, Yanbin Kang, Lichao Sun
cs.AI

Zusammenfassung

Große Sprachmodelle durchlaufen typischerweise zwei Trainingsphasen: Vorabtraining und Feinabstimmung. Obwohl das groß angelegte Vorabtraining dem Modell starke Fähigkeiten verleiht, natürliche Sprachantworten zu generieren, können diese vortrainierten Modelle dennoch manchmal menschliche Anweisungen nicht verstehen. Um die Fähigkeit von Sprachmodellen, Anweisungen zu interpretieren und darauf zu reagieren, zu verbessern, hat sich die Feinabstimmung auf Anweisungen als eine entscheidende Methode in diesem Bereich etabliert. Aktuelle Studien haben gezeigt, dass große Sprachmodelle auch mit einer geringen Menge an hochwertigen Daten zur Befolgung von Anweisungen feinabgestimmt werden können, um gute Leistungen zu erzielen. Dennoch fehlen klare Richtlinien für die Auswahl hochwertiger Datensätze zur Feinabstimmung von Sprachmodellen. In diesem Artikel schlagen wir InstructMining vor, eine lineare Regel zur Bewertung der Qualität von Daten zur Befolgung von Anweisungen. Wir formulieren InstructMining unter Verwendung spezifischer natürlicher Sprachindikatoren. Um den Zusammenhang zwischen Datenqualität und diesen Indikatoren zu untersuchen, führen wir umfangreiche Feinabstimmungsexperimente durch. Die Ergebnisse der Experimente werden dann zur Schätzung der Parameter in InstructMining verwendet. Um die Leistung weiter zu untersuchen, verwenden wir InstructMining, um hochwertige Daten aus unbekannten Datensätzen auszuwählen. Die Ergebnisse zeigen, dass InstructMining dabei helfen kann, relativ hochwertige Beispiele aus verschiedenen Datensätzen zur Befolgung von Anweisungen auszuwählen. Im Vergleich zu Modellen, die auf ungefilterten Datensätzen feinabgestimmt wurden, schneiden Modelle, die auf mit InstructMining ausgewählten Datensätzen feinabgestimmt wurden, in 42,5 % der Fälle besser ab.
English
Large language models typically undergo two training stages, pretraining and finetuning. Despite that large-scale pretraining endows the model with strong capabilities to generate natural language responses, these pretrained models can still fail to understand human instructions at times. To enhance language models' ability of interpreting and responding to instructions, instruction finetuning has emerged as a critical method in this area. Recent studies found that large language models can be finetuned to perform well even with a small amount of high-quality instruction-following data. However, the selection of high-quality datasets for finetuning language models still lacks clear guidelines to follow. In this paper, we propose InstructMining, a linear rule for evaluating instruction-following data quality. We formulate InstructMining using specific natural language indicators. To investigate the relationship between data quality and these indicators, we further conduct extensive finetuning experiments. The experiment results are then applied to estimating parameters in InstructMining. To further investigate its performance, we use InstructMining to select high-quality data from unseen datasets. Results demonstrate that InstructMining can help select relatively high-quality samples from various instruction-following datasets. Compared to models finetuned on unfiltered datasets, models finetuned on InstructMining selected datasets perform better on 42.5% cases.
PDF100December 15, 2024