ChatPaper.aiChatPaper

Ripensare la Selezione dei Dati su Larga Scala: La Selezione Casuale è Quasi Tutto ciò di cui Hai Bisogno

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

October 12, 2024
Autori: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI

Abstract

Il fine-tuning supervisionato (SFT) è cruciale per allineare i Grandi Modelli Linguistici (LLM) con le istruzioni umane. L'obiettivo principale durante l'SFT è selezionare un sottoinsieme ridotto ma rappresentativo di dati di addestramento dal pool più ampio, in modo che il fine-tuning con questo sottoinsieme raggiunga risultati paragonabili o addirittura superiori a quelli ottenuti utilizzando l'intero dataset. Tuttavia, la maggior parte delle tecniche esistenti di selezione dei dati sono progettate per pool di dati su piccola scala, che non soddisfano le esigenze degli scenari reali di SFT. In questo articolo, abbiamo replicato diversi metodi di auto-punteggio che non dipendono dall'assistenza di modelli esterni su dataset su scala di due milioni e abbiamo scoperto che quasi tutti i metodi faticavano a superare significativamente la selezione casuale quando si trattava di pool di dati su larga scala. Inoltre, i nostri confronti suggeriscono che, durante l'SFT, la diversità nella selezione dei dati è più critica che concentrarsi semplicemente su dati di alta qualità. Abbiamo anche analizzato i limiti di diversi approcci attuali, spiegando perché si comportano male su dataset su larga scala e perché non sono adatti per tali contesti. Infine, abbiamo scoperto che filtrare i dati per lunghezza del token offre un metodo stabile ed efficiente per migliorare i risultati. Questo approccio, in particolare durante l'addestramento su dati di testo lungo, si dimostra altamente vantaggioso per modelli di base relativamente più deboli, come Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.

Summary

AI-Generated Summary

PDF173November 16, 2024