ChatPaper.aiChatPaper

Repensando a Seleção de Dados em Escala: A Seleção Aleatória é Quase Tudo o que Você Precisa

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

October 12, 2024
Autores: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI

Resumo

O ajuste fino supervisionado (AFS) é crucial para alinhar os Modelos de Linguagem de Grande Escala (MLEs) com instruções humanas. O objetivo principal durante o AFS é selecionar um subconjunto pequeno, porém representativo, de dados de treinamento do pool maior, de forma que o ajuste fino com este subconjunto alcance resultados comparáveis ou até mesmo superiores aos obtidos usando todo o conjunto de dados. No entanto, a maioria das técnicas de seleção de dados existentes são projetadas para pools de dados em pequena escala, o que não atende às demandas de cenários reais de AFS. Neste artigo, replicamos vários métodos de autoavaliação que não dependem de assistência de modelo externo em conjuntos de dados de dois milhões de escalas, e descobrimos que quase todos os métodos tiveram dificuldade em superar significativamente a seleção aleatória ao lidar com pools de dados em grande escala. Além disso, nossas comparações sugerem que, durante o AFS, a diversidade na seleção de dados é mais crítica do que simplesmente focar em dados de alta qualidade. Também analisamos as limitações de várias abordagens atuais, explicando por que elas têm um desempenho ruim em conjuntos de dados em grande escala e por que não são adequadas para tais contextos. Por fim, descobrimos que filtrar dados por comprimento de token oferece um método estável e eficiente para melhorar os resultados. Esta abordagem, especialmente ao treinar em dados de texto longo, se mostra altamente benéfica para modelos de base relativamente mais fracos, como o Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.

Summary

AI-Generated Summary

PDF173November 16, 2024