Repenser la Sélection de Données à Grande Échelle : La Sélection Aléatoire est Presque Tout ce Dont Vous Avez Besoin

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

October 12, 2024
Auteurs: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI

Résumé

Le réglage fin supervisé (SFS) est crucial pour aligner les Grands Modèles de Langage (GML) avec les instructions humaines. L'objectif principal pendant le SFS est de sélectionner un petit sous-ensemble représentatif de données d'entraînement à partir du pool plus large, de sorte que le réglage fin avec ce sous-ensemble atteigne des résultats comparables, voire supérieurs, à ceux obtenus en utilisant l'ensemble des données. Cependant, la plupart des techniques de sélection de données existantes sont conçues pour des pools de données à petite échelle, ce qui ne répond pas aux exigences des scénarios réels de SFS. Dans cet article, nous avons reproduit plusieurs méthodes d'auto-évaluation qui ne dépendent pas de l'assistance de modèles externes sur des ensembles de données à l'échelle de deux millions, et avons constaté que presque toutes les méthodes ont du mal à surpasser significativement la sélection aléatoire lorsqu'il s'agit de traiter de tels pools de données à grande échelle. De plus, nos comparaisons suggèrent que, pendant le SFS, la diversité dans la sélection des données est plus critique que de simplement se concentrer sur des données de haute qualité. Nous avons également analysé les limites de plusieurs approches actuelles, expliquant pourquoi elles fonctionnent mal sur des ensembles de données à grande échelle et pourquoi elles ne sont pas adaptées à de tels contextes. Enfin, nous avons constaté que le filtrage des données par longueur de jeton offre une méthode stable et efficace pour améliorer les résultats. Cette approche, en particulier lors de l'entraînement sur des données textuelles longues, s'avère très bénéfique pour des modèles de base relativement plus faibles, tels que Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.

Summary

AI-Generated Summary

PDF173November 16, 2024