ChatPaper.aiChatPaper

Инструктивное майнинг: отбор высококачественных инструктивных данных для крупных языковых моделей

Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

July 12, 2023
Авторы: Yihan Cao, Yanbin Kang, Lichao Sun
cs.AI

Аннотация

Крупные языковые модели обычно проходят два этапа обучения: предварительное обучение и тонкую настройку. Несмотря на то, что масштабное предварительное обучение наделяет модель мощными способностями к генерации естественных языковых ответов, эти предварительно обученные модели всё же могут иногда не справляться с пониманием человеческих инструкций. Для повышения способности языковых моделей интерпретировать и реагировать на инструкции, тонкая настройка на инструкции стала ключевым методом в этой области. Недавние исследования показали, что крупные языковые модели могут быть эффективно настроены даже с использованием небольшого количества высококачественных данных, связанных с выполнением инструкций. Однако выбор высококачественных наборов данных для тонкой настройки языковых моделей всё ещё не имеет чётких руководящих принципов. В данной статье мы предлагаем InstructMining, линейное правило для оценки качества данных, связанных с выполнением инструкций. Мы формулируем InstructMining с использованием конкретных естественных языковых индикаторов. Чтобы исследовать взаимосвязь между качеством данных и этими индикаторами, мы проводим обширные эксперименты по тонкой настройке. Результаты экспериментов затем применяются для оценки параметров в InstructMining. Для дальнейшего изучения его производительности мы используем InstructMining для выбора высококачественных данных из неизвестных наборов данных. Результаты показывают, что InstructMining может помочь выбрать относительно высококачественные образцы из различных наборов данных, связанных с выполнением инструкций. По сравнению с моделями, настроенными на нефильтрованных наборах данных, модели, настроенные на наборах данных, отобранных с помощью InstructMining, показывают лучшие результаты в 42,5% случаев.
English
Large language models typically undergo two training stages, pretraining and finetuning. Despite that large-scale pretraining endows the model with strong capabilities to generate natural language responses, these pretrained models can still fail to understand human instructions at times. To enhance language models' ability of interpreting and responding to instructions, instruction finetuning has emerged as a critical method in this area. Recent studies found that large language models can be finetuned to perform well even with a small amount of high-quality instruction-following data. However, the selection of high-quality datasets for finetuning language models still lacks clear guidelines to follow. In this paper, we propose InstructMining, a linear rule for evaluating instruction-following data quality. We formulate InstructMining using specific natural language indicators. To investigate the relationship between data quality and these indicators, we further conduct extensive finetuning experiments. The experiment results are then applied to estimating parameters in InstructMining. To further investigate its performance, we use InstructMining to select high-quality data from unseen datasets. Results demonstrate that InstructMining can help select relatively high-quality samples from various instruction-following datasets. Compared to models finetuned on unfiltered datasets, models finetuned on InstructMining selected datasets perform better on 42.5% cases.
PDF100December 15, 2024