합성 데이터 (거의) 처음부터: 언어 모델을 위한 일반화된 지시 튜닝
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models
February 20, 2024
저자: Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei
cs.AI
초록
우리는 대규모 언어 모델(LLM)의 지시 튜닝을 위한 일반적이고 확장 가능한 방법인 Generalized Instruction Tuning(GLAN)을 소개한다. 기존 연구들이 시드 예제나 기존 데이터셋에 의존하여 지시 튜닝 데이터를 구성한 것과 달리, GLAN은 사전에 정리된 인간 지식과 능력의 분류 체계만을 입력으로 사용하여 모든 학문 분야에 걸친 대규모 합성 지시 데이터를 생성한다. 구체적으로, 인간 교육 체계의 체계적 구조에서 영감을 받아, 우리는 LLM의 도움을 받아 인간 지식과 능력을 다양한 분야, 하위 분야, 그리고 궁극적으로 구별되는 학문 영역으로 반자동적으로 분해하여 분류 체계를 구축한다. 이후, 각 학문 영역에 대한 포괄적인 주제 목록을 생성하고, 다시 LLM을 활용하여 각 주제에 맞춤화된 강의 계획서를 설계한다. 강의 계획서의 각 수업 세션에 상세히 기술된 세분화된 핵심 개념을 바탕으로, 우리는 인간 지식과 기술의 전체 스펙트럼을 광범위하게 포괄하는 다양한 지시문을 생성할 수 있다. Mistral과 같은 대규모 언어 모델에 대한 광범위한 실험 결과, GLAN은 수학적 추론, 코딩, 학업 시험, 논리적 추론부터 일반적인 지시 수행에 이르기까지 여러 차원에서 우수한 성능을 보이며, 이러한 작업들에 대한 작업별 훈련 데이터를 사용하지 않았다. 또한, GLAN은 사용자 정의가 용이하며, 새로운 분야나 기술을 추가하기 위해 분류 체계에 새로운 노드를 간단히 통합하는 것만으로도 가능하다.
English
We introduce Generalized Instruction Tuning (called GLAN), a general and
scalable method for instruction tuning of Large Language Models (LLMs). Unlike
prior work that relies on seed examples or existing datasets to construct
instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of
human knowledge and capabilities as input and generates large-scale synthetic
instruction data across all disciplines. Specifically, inspired by the
systematic structure in human education system, we build the taxonomy by
decomposing human knowledge and capabilities to various fields, sub-fields and
ultimately, distinct disciplines semi-automatically, facilitated by LLMs.
Subsequently, we generate a comprehensive list of subjects for every discipline
and proceed to design a syllabus tailored to each subject, again utilizing
LLMs. With the fine-grained key concepts detailed in every class session of the
syllabus, we are able to generate diverse instructions with a broad coverage
across the entire spectrum of human knowledge and skills. Extensive experiments
on large language models (e.g., Mistral) demonstrate that GLAN excels in
multiple dimensions from mathematical reasoning, coding, academic exams,
logical reasoning to general instruction following without using task-specific
training data of these tasks. In addition, GLAN allows for easy customization
and new fields or skills can be added by simply incorporating a new node into
our taxonomy.