Heroverweging van Gegevensselectie op Schaal: Willekeurige Selectie is Vrijwel Alles Wat Je Nodig Hebt
Rethinking Data Selection at Scale: Random Selection is Almost All You Need
October 12, 2024
Auteurs: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI
Samenvatting
Het toezicht houden op fijntuning (SFT) is cruciaal voor het afstemmen van Grote Taalmodellen (LLMs) op menselijke instructies. Het primaire doel tijdens SFT is het selecteren van een klein maar representatief subset van trainingsdata uit de grotere pool, zodat fijntuning met deze subset resultaten oplevert die vergelijkbaar zijn met of zelfs beter zijn dan die verkregen met behulp van de volledige dataset. De meeste bestaande technieken voor gegevensselectie zijn echter ontworpen voor datapoelen op kleine schaal, die niet voldoen aan de eisen van SFT-scenario's in de echte wereld. In dit artikel hebben we verschillende zelfscorende methoden gerepliceerd die niet afhankelijk zijn van externe modelassistentie op datasets op de schaal van twee miljoen, en ontdekten dat bijna alle methoden moeite hadden om aanzienlijk beter te presteren dan willekeurige selectie bij het omgaan met dergelijke datapoelen op grote schaal. Bovendien suggereren onze vergelijkingen dat, tijdens SFT, diversiteit in gegevensselectie belangrijker is dan simpelweg te focussen op gegevens van hoge kwaliteit. We hebben ook de beperkingen van verschillende huidige benaderingen geanalyseerd, waarbij we uitleggen waarom ze slecht presteren op datasets op grote schaal en waarom ze ongeschikt zijn voor dergelijke contexten. Ten slotte ontdekten we dat het filteren van gegevens op tokenlengte een stabiele en efficiënte methode biedt om resultaten te verbeteren. Deze aanpak, met name bij het trainen op lange tekstgegevens, blijkt zeer gunstig te zijn voor relatief zwakkere basismodellen, zoals Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models
(LLMs) with human instructions. The primary goal during SFT is to select a
small yet representative subset of training data from the larger pool, such
that fine-tuning with this subset achieves results comparable to or even
exceeding those obtained using the entire dataset. However, most existing data
selection techniques are designed for small-scale data pools, which fail to
meet the demands of real-world SFT scenarios. In this paper, we replicated
several self-scoring methods those that do not rely on external model
assistance on two million scale datasets, and found that nearly all methods
struggled to significantly outperform random selection when dealing with such
large-scale data pools. Moreover, our comparisons suggest that, during SFT,
diversity in data selection is more critical than simply focusing on high
quality data. We also analyzed the limitations of several current approaches,
explaining why they perform poorly on large-scale datasets and why they are
unsuitable for such contexts. Finally, we found that filtering data by token
length offers a stable and efficient method for improving results. This
approach, particularly when training on long text data, proves highly
beneficial for relatively weaker base models, such as Llama3.Summary
AI-Generated Summary