ChatPaper.aiChatPaper

Как обучать эффективные языковые модели с ограниченными данными

How to Train Data-Efficient LLMs

February 15, 2024
Авторы: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI

Аннотация

Обучение крупных языковых моделей (LLM) является дорогостоящим процессом. В данной статье мы исследуем подходы к предварительному обучению LLM, которые позволяют эффективно использовать данные, то есть методы, направленные на оптимизацию Парето-границы между качеством модели и потреблением ресурсов/данных для обучения. Мы стремимся понять компромиссы, связанные с процедурами отбора данных, основанными на (i) трудоемких оценках качества данных и (ii) максимизации показателей охвата и разнообразия в пространстве признаков. Наш первый метод, Ask-LLM, использует возможности нулевого обучения (zero-shot reasoning) инструктивно настроенных LLM для непосредственной оценки качества обучающего примера. Для достижения охвата мы предлагаем метод Density sampling, который моделирует распределение данных для выбора разнообразной выборки. В нашем сравнении 19 методов выборки, включающем сотни задач оценки и запусков предварительного обучения, мы обнаружили, что Ask-LLM и Density являются лучшими методами в своих категориях. Выборка на основе охвата может восстановить производительность полного набора данных, в то время как модели, обученные на данных, отобранных с помощью Ask-LLM, стабильно превосходят обучение на полных данных — даже при отбрасывании 90% исходного набора данных, при этом сходимость достигается до 70% быстрее.
English
The training of large language models (LLMs) is expensive. In this paper, we study data-efficient approaches for pre-training LLMs, i.e., techniques that aim to optimize the Pareto frontier of model quality and training resource/data consumption. We seek to understand the tradeoffs associated with data selection routines based on (i) expensive-to-compute data-quality estimates, and (ii) maximization of coverage and diversity-based measures in the feature space. Our first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of instruction-tuned LLMs to directly assess the quality of a training example. To target coverage, we propose Density sampling, which models the data distribution to select a diverse sample. In our comparison of 19 samplers, involving hundreds of evaluation tasks and pre-training runs, we find that Ask-LLM and Density are the best methods in their respective categories. Coverage sampling can recover the performance of the full data, while models trained on Ask-LLM data consistently outperform full-data training -- even when we reject 90% of the original dataset, while converging up to 70% faster.
PDF424December 15, 2024