Dati Sintetici (Quasi) da Zero: Ottimizzazione Generalizzata delle Istruzioni per Modelli Linguistici
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
February 20, 2024
Autori: Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei
cs.AI
Abstract
Introduciamo il Generalized Instruction Tuning (denominato GLAN), un metodo generale e scalabile per il fine-tuning delle istruzioni nei Large Language Models (LLM). A differenza dei lavori precedenti che si basano su esempi iniziali o dataset esistenti per costruire dati di fine-tuning delle istruzioni, GLAN utilizza esclusivamente una tassonomia pre-curata della conoscenza e delle capacità umane come input e genera dati sintetici di istruzioni su larga scala in tutte le discipline. Nello specifico, ispirati dalla struttura sistematica del sistema educativo umano, costruiamo la tassonomia scomponendo la conoscenza e le capacità umane in vari campi, sotto-campi e, infine, discipline distinte in modo semi-automatico, facilitato dai LLM. Successivamente, generiamo un elenco completo di materie per ogni disciplina e procediamo a progettare un programma di studi personalizzato per ogni materia, sempre utilizzando i LLM. Con i concetti chiave dettagliati in ogni sessione del programma di studi, siamo in grado di generare istruzioni diversificate con una copertura ampia dell'intero spettro della conoscenza e delle abilità umane. Esperimenti estesi su grandi modelli linguistici (ad esempio, Mistral) dimostrano che GLAN eccelle in molteplici dimensioni, dal ragionamento matematico, alla programmazione, agli esami accademici, al ragionamento logico fino al seguire istruzioni generali, senza utilizzare dati di addestramento specifici per questi compiti. Inoltre, GLAN consente una facile personalizzazione e nuovi campi o abilità possono essere aggiunti semplicemente incorporando un nuovo nodo nella nostra tassonomia.
English
We introduce Generalized Instruction Tuning (called GLAN), a general and
scalable method for instruction tuning of Large Language Models (LLMs). Unlike
prior work that relies on seed examples or existing datasets to construct
instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of
human knowledge and capabilities as input and generates large-scale synthetic
instruction data across all disciplines. Specifically, inspired by the
systematic structure in human education system, we build the taxonomy by
decomposing human knowledge and capabilities to various fields, sub-fields and
ultimately, distinct disciplines semi-automatically, facilitated by LLMs.
Subsequently, we generate a comprehensive list of subjects for every discipline
and proceed to design a syllabus tailored to each subject, again utilizing
LLMs. With the fine-grained key concepts detailed in every class session of the
syllabus, we are able to generate diverse instructions with a broad coverage
across the entire spectrum of human knowledge and skills. Extensive experiments
on large language models (e.g., Mistral) demonstrate that GLAN excels in
multiple dimensions from mathematical reasoning, coding, academic exams,
logical reasoning to general instruction following without using task-specific
training data of these tasks. In addition, GLAN allows for easy customization
and new fields or skills can be added by simply incorporating a new node into
our taxonomy.