ChatPaper.aiChatPaper

Neubewertung der Datenauswahl im großen Maßstab: Zufällige Auswahl ist fast alles, was Sie brauchen.

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

October 12, 2024
Autoren: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI

Zusammenfassung

Die überwachte Feinabstimmung (SFT) ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Anweisungen in Einklang zu bringen. Das Hauptziel während der SFT besteht darin, eine kleine, aber repräsentative Teilmenge von Trainingsdaten aus dem größeren Pool auszuwählen, sodass die Feinabstimmung mit dieser Teilmenge Ergebnisse erzielt, die mit denen vergleichbar sind oder sogar diejenigen übertreffen, die unter Verwendung des gesamten Datensatzes erzielt wurden. Die meisten bestehenden Techniken zur Datenauswahl sind jedoch für Datensätze kleineren Maßstabs konzipiert, was den Anforderungen von SFT-Szenarien in der realen Welt nicht gerecht wird. In dieser Arbeit haben wir mehrere Selbstbewertungsmethoden, die nicht auf externe Modellhilfe angewiesen sind, auf Datensätze von zwei Millionen Skalen repliziert und festgestellt, dass nahezu alle Methoden Schwierigkeiten hatten, signifikant bessere Ergebnisse als zufällige Auswahl zu erzielen, wenn es um die Bewältigung solcher Datensätze in großem Maßstab ging. Darüber hinaus legen unsere Vergleiche nahe, dass während der SFT die Vielfalt bei der Datenauswahl wichtiger ist als sich einfach nur auf hochwertige Daten zu konzentrieren. Wir haben auch die Grenzen mehrerer aktueller Ansätze analysiert, erläutert, warum sie auf Datensätzen in großem Maßstab schlecht abschneiden und warum sie für solche Kontexte ungeeignet sind. Schließlich stellten wir fest, dass die Filterung von Daten nach Token-Länge eine stabile und effiziente Methode zur Verbesserung der Ergebnisse bietet. Dieser Ansatz, insbesondere beim Training mit langen Textdaten, erweist sich als äußerst vorteilhaft für relativ schwächere Basismodelle, wie z.B. Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.

Summary

AI-Generated Summary

PDF173November 16, 2024