Масштабирование синтетических инструкций до масштаба предварительного обучения
FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
January 29, 2026
Авторы: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
Аннотация
Из-за ограниченного объема размеченных обучающих данных крупные языковые модели (LLM) обычно предварительно обучаются с помощью самообучающейся задачи «предсказать следующее слово» на огромных массивах неразмеченных текстовых данных. Чтобы сделать полученную модель полезной для пользователей, ее дополнительно дообучают на значительно меньшем объеме данных «инструктивной настройки», состоящих из размеченных примеров инструкций и ответов. Чтобы преодолеть ограниченность размеченных данных, мы предлагаем метод, позволяющий преобразовать знания из интернет-масштабных документов предварительного обучения в миллиарды синтетических пар «инструкция-ответ» для обучения. Полученный набор данных, названный FineInstructions, использует ~18 млн шаблонов инструкций, созданных на основе реальных пользовательских запросов и промптов. Эти шаблоны инструкций сопоставляются и наполняются содержанием из написанных человеком исходных документов из неразмеченных корпусов предварительного обучения. Благодаря «размеченным» синтетическим обучающим данным, сгенерированным в таком масштабе, LLM можно предварительно обучать с нуля, используя исключительно задачу инструктивной настройки, что гораздо ближе к ожидаемому downstream-применению LLM (ответам на пользовательские промпты). Мы провели контролируемые эксперименты по обучению с точным подсчетом токенов и обнаружили, что предварительное обучение на FineInstructions превосходит стандартное предварительное обучение и другие предложенные методы синтетического предварительного обучения по стандартным бенчмаркам, оценивающим качество свободных ответов. Наши ресурсы доступны по адресу https://huggingface.co/fineinstructions.
English
Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .