ChatPaper.aiChatPaper

Озадаченные непонятностью: обрезка данных на основе непонятности с использованием небольших опорных моделей

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

May 30, 2024
Авторы: Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul
cs.AI

Аннотация

В данной работе мы исследуем, могут ли небольшие языковые модели определять высококачественные подмножества крупномасштабных текстовых наборов данных, улучшающие производительность более крупных языковых моделей. В то время как существующие исследования показали, что обрезка на основе перплексии более крупной модели может привести к высококачественным данным, мы исследуем, могут ли более маленькие модели использоваться для обрезки на основе перплексии и как обрезка зависит от доменной структуры данных, которые подвергаются обрезке. Мы демонстрируем, что для нескольких комбинаций наборов данных обрезка на основе перплексии предварительных данных может значительно улучшить производительность на конечных задачах: обрезка на основе перплексий, вычисленных с использованием модели с 125 миллионами параметров, улучшает среднюю производительность на конечных задачах модели с 3 миллиардами параметров на до 2,04 и достигает до 1,45-кратного сокращения этапов предварительного обучения для достижения сопоставимой базовой производительности. Более того, мы демонстрируем, что такая обрезка данных на основе перплексии также приводит к увеличению производительности на конечных задачах в режимах переобучения и ограниченного объема данных.
English
In this work, we investigate whether small language models can determine high-quality subsets of large-scale text datasets that improve the performance of larger language models. While existing work has shown that pruning based on the perplexity of a larger model can yield high-quality data, we investigate whether smaller models can be used for perplexity-based pruning and how pruning is affected by the domain composition of the data being pruned. We demonstrate that for multiple dataset compositions, perplexity-based pruning of pretraining data can significantly improve downstream task performance: pruning based on perplexities computed with a 125 million parameter model improves the average performance on downstream tasks of a 3 billion parameter model by up to 2.04 and achieves up to a 1.45times reduction in pretraining steps to reach commensurate baseline performance. Furthermore, we demonstrate that such perplexity-based data pruning also yields downstream performance gains in the over-trained and data-constrained regimes.

Summary

AI-Generated Summary

PDF241December 12, 2024