Синтетические данные (почти) с нуля: обобщённая настройка инструкций для языковых моделей

Аннотация

Мы представляем Обобщённую Настройку по Инструкциям (Generalized Instruction Tuning, GLAN) — универсальный и масштабируемый метод настройки крупных языковых моделей (LLM) на выполнение инструкций. В отличие от предыдущих работ, которые полагаются на начальные примеры или существующие наборы данных для создания данных для настройки, GLAN исключительно использует заранее подготовленную таксономию человеческих знаний и способностей в качестве входных данных и генерирует крупномасштабные синтетические данные с инструкциями, охватывающие все дисциплины. В частности, вдохновляясь систематической структурой системы образования, мы создаём таксономию, разбивая человеческие знания и способности на различные области, подразделы и, в конечном итоге, отдельные дисциплины полуавтоматически с помощью LLM. Затем мы генерируем исчерпывающий список предметов для каждой дисциплины и разрабатываем учебный план, адаптированный для каждого предмета, снова используя LLM. Благодаря детализированным ключевым концепциям в каждом занятии учебного плана, мы можем генерировать разнообразные инструкции с широким охватом всего спектра человеческих знаний и навыков. Многочисленные эксперименты на крупных языковых моделях (например, Mistral) демонстрируют, что GLAN превосходит в нескольких аспектах: от математического мышления, программирования, академических экзаменов и логического рассуждения до общего следования инструкциям, без использования специфических обучающих данных для этих задач. Кроме того, GLAN позволяет легко адаптироваться, и новые области или навыки могут быть добавлены простым включением нового узла в нашу таксономию.

English

We introduce Generalized Instruction Tuning (called GLAN), a general and scalable method for instruction tuning of Large Language Models (LLMs). Unlike prior work that relies on seed examples or existing datasets to construct instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of human knowledge and capabilities as input and generates large-scale synthetic instruction data across all disciplines. Specifically, inspired by the systematic structure in human education system, we build the taxonomy by decomposing human knowledge and capabilities to various fields, sub-fields and ultimately, distinct disciplines semi-automatically, facilitated by LLMs. Subsequently, we generate a comprehensive list of subjects for every discipline and proceed to design a syllabus tailored to each subject, again utilizing LLMs. With the fine-grained key concepts detailed in every class session of the syllabus, we are able to generate diverse instructions with a broad coverage across the entire spectrum of human knowledge and skills. Extensive experiments on large language models (e.g., Mistral) demonstrate that GLAN excels in multiple dimensions from mathematical reasoning, coding, academic exams, logical reasoning to general instruction following without using task-specific training data of these tasks. In addition, GLAN allows for easy customization and new fields or skills can be added by simply incorporating a new node into our taxonomy.

Синтетические данные (почти) с нуля: обобщённая настройка инструкций для языковых моделей

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Аннотация

Support