Переосмысление выбора данных в масштабе: случайный выбор почти все, что вам нужно.
Rethinking Data Selection at Scale: Random Selection is Almost All You Need
October 12, 2024
Авторы: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI
Аннотация
Надзорное донастройка (SFT) имеет решающее значение для согласования больших языковых моделей (LLM) с инструкциями человека. Основная цель во время SFT заключается в выборе небольшого, но репрезентативного подмножества обучающих данных из большого пула, так чтобы донастройка с использованием этого подмножества достигала результатов, сравнимых или даже превосходящих те, что получаются при использовании всего набора данных. Однако большинство существующих техник выбора данных разработаны для небольших пулов данных, что не удовлетворяет требованиям сценариев реального мира для SFT. В данной статье мы воспроизвели несколько методов самооценки, не зависящих от внешней помощи модели, на двух миллионных масштабах наборов данных и обнаружили, что практически все методы испытывают трудности в значительном превосходстве случайного выбора при работе с такими масштабными пулами данных. Более того, наши сравнения показывают, что во время SFT разнообразие в выборе данных более важно, чем просто сосредоточение на данных высокого качества. Мы также проанализировали ограничения нескольких текущих подходов, объясняя, почему они плохо справляются с масштабными наборами данных и почему они не подходят для таких контекстов. Наконец, мы обнаружили, что фильтрация данных по длине токена предлагает стабильный и эффективный метод для улучшения результатов. Этот подход, особенно при обучении на длинных текстовых данных, оказывается чрезвычайно полезным для относительно слабых базовых моделей, таких как Llama3.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models
(LLMs) with human instructions. The primary goal during SFT is to select a
small yet representative subset of training data from the larger pool, such
that fine-tuning with this subset achieves results comparable to or even
exceeding those obtained using the entire dataset. However, most existing data
selection techniques are designed for small-scale data pools, which fail to
meet the demands of real-world SFT scenarios. In this paper, we replicated
several self-scoring methods those that do not rely on external model
assistance on two million scale datasets, and found that nearly all methods
struggled to significantly outperform random selection when dealing with such
large-scale data pools. Moreover, our comparisons suggest that, during SFT,
diversity in data selection is more critical than simply focusing on high
quality data. We also analyzed the limitations of several current approaches,
explaining why they perform poorly on large-scale datasets and why they are
unsuitable for such contexts. Finally, we found that filtering data by token
length offers a stable and efficient method for improving results. This
approach, particularly when training on long text data, proves highly
beneficial for relatively weaker base models, such as Llama3.Summary
AI-Generated Summary