ChatPaper.aiChatPaper

Reconsiderando la Selección de Datos a Escala: La Selección Aleatoria es Casi Todo lo que Necesitas

Rethinking Data Selection at Scale: Random Selection is Almost All You Need

October 12, 2024
Autores: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI

Resumen

El ajuste fino supervisado (AFS) es crucial para alinear los Modelos de Lenguaje Grandes (MLG) con las instrucciones humanas. El objetivo principal durante el AFS es seleccionar un subconjunto pequeño pero representativo de datos de entrenamiento de un conjunto más grande, de modo que el ajuste fino con este subconjunto logre resultados comparables o incluso superiores a los obtenidos utilizando todo el conjunto de datos. Sin embargo, la mayoría de las técnicas de selección de datos existentes están diseñadas para conjuntos de datos a pequeña escala, lo que no satisface las demandas de los escenarios de AFS del mundo real. En este documento, replicamos varios métodos de auto-puntuación que no dependen de asistencia de modelos externos en conjuntos de datos a escala de dos millones, y encontramos que casi todos los métodos lucharon por superar significativamente la selección aleatoria al tratar con conjuntos de datos a gran escala. Además, nuestras comparaciones sugieren que, durante el AFS, la diversidad en la selección de datos es más crítica que simplemente centrarse en datos de alta calidad. También analizamos las limitaciones de varios enfoques actuales, explicando por qué tienen un rendimiento deficiente en conjuntos de datos a gran escala y por qué no son adecuados para tales contextos. Finalmente, descubrimos que filtrar los datos por longitud de token ofrece un método estable y eficiente para mejorar los resultados. Este enfoque, especialmente al entrenar con datos de texto largo, resulta altamente beneficioso para modelos base relativamente más débiles, como Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.

Summary

AI-Generated Summary

PDF173November 16, 2024