Datos Sintéticos (Casi) desde Cero: Ajuste Generalizado de Instrucciones para Modelos de Lenguaje
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
February 20, 2024
Autores: Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei
cs.AI
Resumen
Presentamos el Ajuste de Instrucciones Generalizado (denominado GLAN), un método general y escalable para el ajuste de instrucciones de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A diferencia de trabajos previos que dependen de ejemplos iniciales o conjuntos de datos existentes para construir datos de ajuste de instrucciones, GLAN utiliza exclusivamente una taxonomía predefinida del conocimiento y las capacidades humanas como entrada y genera datos sintéticos de instrucciones a gran escala en todas las disciplinas. Específicamente, inspirados por la estructura sistemática del sistema educativo humano, construimos la taxonomía descomponiendo el conocimiento y las capacidades humanas en diversos campos, subcampos y, finalmente, disciplinas distintas de manera semi-automática, facilitado por LLMs. Posteriormente, generamos una lista exhaustiva de temas para cada disciplina y procedemos a diseñar un plan de estudios adaptado a cada tema, nuevamente utilizando LLMs. Con los conceptos clave detallados en cada sesión del plan de estudios, podemos generar instrucciones diversas con una amplia cobertura en todo el espectro del conocimiento y las habilidades humanas. Experimentos extensivos en modelos de lenguaje de gran escala (por ejemplo, Mistral) demuestran que GLAN sobresale en múltiples dimensiones, desde el razonamiento matemático, la codificación, exámenes académicos, razonamiento lógico hasta el seguimiento general de instrucciones, sin utilizar datos de entrenamiento específicos para estas tareas. Además, GLAN permite una fácil personalización y nuevos campos o habilidades pueden añadirse simplemente incorporando un nuevo nodo en nuestra taxonomía.
English
We introduce Generalized Instruction Tuning (called GLAN), a general and
scalable method for instruction tuning of Large Language Models (LLMs). Unlike
prior work that relies on seed examples or existing datasets to construct
instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of
human knowledge and capabilities as input and generates large-scale synthetic
instruction data across all disciplines. Specifically, inspired by the
systematic structure in human education system, we build the taxonomy by
decomposing human knowledge and capabilities to various fields, sub-fields and
ultimately, distinct disciplines semi-automatically, facilitated by LLMs.
Subsequently, we generate a comprehensive list of subjects for every discipline
and proceed to design a syllabus tailored to each subject, again utilizing
LLMs. With the fine-grained key concepts detailed in every class session of the
syllabus, we are able to generate diverse instructions with a broad coverage
across the entire spectrum of human knowledge and skills. Extensive experiments
on large language models (e.g., Mistral) demonstrate that GLAN excels in
multiple dimensions from mathematical reasoning, coding, academic exams,
logical reasoning to general instruction following without using task-specific
training data of these tasks. In addition, GLAN allows for easy customization
and new fields or skills can be added by simply incorporating a new node into
our taxonomy.Summary
AI-Generated Summary