Синтетические данные (почти) с нуля: обобщённая настройка инструкций для языковых моделей
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
February 20, 2024
Авторы: Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei
cs.AI
Аннотация
Мы представляем Обобщённую Настройку по Инструкциям (Generalized Instruction Tuning, GLAN) — универсальный и масштабируемый метод настройки крупных языковых моделей (LLM) на выполнение инструкций. В отличие от предыдущих работ, которые полагаются на начальные примеры или существующие наборы данных для создания данных для настройки, GLAN исключительно использует заранее подготовленную таксономию человеческих знаний и способностей в качестве входных данных и генерирует крупномасштабные синтетические данные с инструкциями, охватывающие все дисциплины. В частности, вдохновляясь систематической структурой системы образования, мы создаём таксономию, разбивая человеческие знания и способности на различные области, подразделы и, в конечном итоге, отдельные дисциплины полуавтоматически с помощью LLM. Затем мы генерируем исчерпывающий список предметов для каждой дисциплины и разрабатываем учебный план, адаптированный для каждого предмета, снова используя LLM. Благодаря детализированным ключевым концепциям в каждом занятии учебного плана, мы можем генерировать разнообразные инструкции с широким охватом всего спектра человеческих знаний и навыков. Многочисленные эксперименты на крупных языковых моделях (например, Mistral) демонстрируют, что GLAN превосходит в нескольких аспектах: от математического мышления, программирования, академических экзаменов и логического рассуждения до общего следования инструкциям, без использования специфических обучающих данных для этих задач. Кроме того, GLAN позволяет легко адаптироваться, и новые области или навыки могут быть добавлены простым включением нового узла в нашу таксономию.
English
We introduce Generalized Instruction Tuning (called GLAN), a general and
scalable method for instruction tuning of Large Language Models (LLMs). Unlike
prior work that relies on seed examples or existing datasets to construct
instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of
human knowledge and capabilities as input and generates large-scale synthetic
instruction data across all disciplines. Specifically, inspired by the
systematic structure in human education system, we build the taxonomy by
decomposing human knowledge and capabilities to various fields, sub-fields and
ultimately, distinct disciplines semi-automatically, facilitated by LLMs.
Subsequently, we generate a comprehensive list of subjects for every discipline
and proceed to design a syllabus tailored to each subject, again utilizing
LLMs. With the fine-grained key concepts detailed in every class session of the
syllabus, we are able to generate diverse instructions with a broad coverage
across the entire spectrum of human knowledge and skills. Extensive experiments
on large language models (e.g., Mistral) demonstrate that GLAN excels in
multiple dimensions from mathematical reasoning, coding, academic exams,
logical reasoning to general instruction following without using task-specific
training data of these tasks. In addition, GLAN allows for easy customization
and new fields or skills can be added by simply incorporating a new node into
our taxonomy.Summary
AI-Generated Summary