Synthetische Data (Bijna) vanaf Nul: Gegeneraliseerde Instructieafstemming voor Taalmodellen
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
February 20, 2024
Auteurs: Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei
cs.AI
Samenvatting
We introduceren Generalized Instruction Tuning (genaamd GLAN), een algemene en schaalbare methode voor instruction tuning van Large Language Models (LLM's). In tegenstelling tot eerder werk dat vertrouwt op seed-voorbeelden of bestaande datasets om instruction tuning data te construeren, maakt GLAN uitsluitend gebruik van een vooraf samengestelde taxonomie van menselijke kennis en vaardigheden als input en genereert het grootschalige synthetische instruction data over alle disciplines. Specifiek, geïnspireerd door de systematische structuur in het menselijke onderwijssysteem, bouwen we de taxonomie door menselijke kennis en vaardigheden semi-automatisch te decomponeren naar verschillende velden, subvelden en uiteindelijk afzonderlijke disciplines, gefaciliteerd door LLM's. Vervolgens genereren we een uitgebreide lijst van onderwerpen voor elke discipline en gaan we over tot het ontwerpen van een syllabus op maat voor elk onderwerp, opnieuw met behulp van LLM's. Met de fijnmazige kernconcepten die gedetailleerd zijn in elke les van de syllabus, zijn we in staat om diverse instructies te genereren met een brede dekking over het hele spectrum van menselijke kennis en vaardigheden. Uitgebreide experimenten op grote taalmodellen (bijv. Mistral) tonen aan dat GLAN uitblinkt in meerdere dimensies, van wiskundig redeneren, coderen, academische examens, logisch redeneren tot het algemeen volgen van instructies, zonder gebruik te maken van taakspecifieke trainingsdata van deze taken. Daarnaast maakt GLAN eenvoudige aanpassing mogelijk en kunnen nieuwe velden of vaardigheden worden toegevoegd door simpelweg een nieuw knooppunt in onze taxonomie op te nemen.
English
We introduce Generalized Instruction Tuning (called GLAN), a general and
scalable method for instruction tuning of Large Language Models (LLMs). Unlike
prior work that relies on seed examples or existing datasets to construct
instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of
human knowledge and capabilities as input and generates large-scale synthetic
instruction data across all disciplines. Specifically, inspired by the
systematic structure in human education system, we build the taxonomy by
decomposing human knowledge and capabilities to various fields, sub-fields and
ultimately, distinct disciplines semi-automatically, facilitated by LLMs.
Subsequently, we generate a comprehensive list of subjects for every discipline
and proceed to design a syllabus tailored to each subject, again utilizing
LLMs. With the fine-grained key concepts detailed in every class session of the
syllabus, we are able to generate diverse instructions with a broad coverage
across the entire spectrum of human knowledge and skills. Extensive experiments
on large language models (e.g., Mistral) demonstrate that GLAN excels in
multiple dimensions from mathematical reasoning, coding, academic exams,
logical reasoning to general instruction following without using task-specific
training data of these tasks. In addition, GLAN allows for easy customization
and new fields or skills can be added by simply incorporating a new node into
our taxonomy.