Dati Sintetici (Quasi) da Zero: Ottimizzazione Generalizzata delle Istruzioni per Modelli Linguistici

Abstract

Introduciamo il Generalized Instruction Tuning (denominato GLAN), un metodo generale e scalabile per il fine-tuning delle istruzioni nei Large Language Models (LLM). A differenza dei lavori precedenti che si basano su esempi iniziali o dataset esistenti per costruire dati di fine-tuning delle istruzioni, GLAN utilizza esclusivamente una tassonomia pre-curata della conoscenza e delle capacità umane come input e genera dati sintetici di istruzioni su larga scala in tutte le discipline. Nello specifico, ispirati dalla struttura sistematica del sistema educativo umano, costruiamo la tassonomia scomponendo la conoscenza e le capacità umane in vari campi, sotto-campi e, infine, discipline distinte in modo semi-automatico, facilitato dai LLM. Successivamente, generiamo un elenco completo di materie per ogni disciplina e procediamo a progettare un programma di studi personalizzato per ogni materia, sempre utilizzando i LLM. Con i concetti chiave dettagliati in ogni sessione del programma di studi, siamo in grado di generare istruzioni diversificate con una copertura ampia dell'intero spettro della conoscenza e delle abilità umane. Esperimenti estesi su grandi modelli linguistici (ad esempio, Mistral) dimostrano che GLAN eccelle in molteplici dimensioni, dal ragionamento matematico, alla programmazione, agli esami accademici, al ragionamento logico fino al seguire istruzioni generali, senza utilizzare dati di addestramento specifici per questi compiti. Inoltre, GLAN consente una facile personalizzazione e nuovi campi o abilità possono essere aggiunti semplicemente incorporando un nuovo nodo nella nostra tassonomia.

English

We introduce Generalized Instruction Tuning (called GLAN), a general and scalable method for instruction tuning of Large Language Models (LLMs). Unlike prior work that relies on seed examples or existing datasets to construct instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of human knowledge and capabilities as input and generates large-scale synthetic instruction data across all disciplines. Specifically, inspired by the systematic structure in human education system, we build the taxonomy by decomposing human knowledge and capabilities to various fields, sub-fields and ultimately, distinct disciplines semi-automatically, facilitated by LLMs. Subsequently, we generate a comprehensive list of subjects for every discipline and proceed to design a syllabus tailored to each subject, again utilizing LLMs. With the fine-grained key concepts detailed in every class session of the syllabus, we are able to generate diverse instructions with a broad coverage across the entire spectrum of human knowledge and skills. Extensive experiments on large language models (e.g., Mistral) demonstrate that GLAN excels in multiple dimensions from mathematical reasoning, coding, academic exams, logical reasoning to general instruction following without using task-specific training data of these tasks. In addition, GLAN allows for easy customization and new fields or skills can be added by simply incorporating a new node into our taxonomy.

Dati Sintetici (Quasi) da Zero: Ottimizzazione Generalizzata delle Istruzioni per Modelli Linguistici

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Abstract

Support