Ensemble-Instruct: 이질적인 언어 모델 혼합을 통한 지시 튜닝 데이터 생성
Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs
October 21, 2023
저자: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ramón Fernandez Astudillo
cs.AI
초록
컨텍스트 내 학습(In-Context Learning, ICL)을 데이터 생성에 활용하는 Self-Instruct(Wang et al., 2023) 또는 후속 연구인 Alpaca(Taori et al., 2023)와 같은 기술은 적은 양의 인간 감독만으로도 강력한 대화형 에이전트를 훈련시킬 수 있습니다. 이러한 접근법의 한계는 매우 큰 언어 모델(약 175B 파라미터)에 의존하며, 이 모델들은 독점적이고 공개되지 않았다는 점입니다. 본 연구에서는 이러한 기술을 훨씬 작은 크기(약 10B~40B 파라미터)의 언어 모델에 적용하고, 허가가 자유로운 라이선스를 가진 모델을 탐구합니다. Self-Instruct 접근법은 이러한 크기에서는 덜 효과적인 것으로 나타났으며, 우리는 두 가지 주요 아이디어를 기반으로 한 새로운 ICL 방법을 제안합니다: (a) ICL 템플릿의 범주화 및 단순화를 통해 언어 모델이 프롬프트 학습을 더 쉽게 할 수 있도록 하고, (b) 여러 언어 모델 출력을 앙상블하여 고품질의 합성 예제를 선택하는 데 도움을 줍니다. 우리의 알고리즘은 Self-Instruct의 175개 시드 작업을 활용하며, 입력이 필요한 지시문과 입력이 필요하지 않은 지시문을 위해 별도의 파이프라인을 사용합니다. 다양한 언어 모델을 사용한 실험적 연구 결과는 다음과 같습니다: (1) 제안된 방법은 Self-Instruct보다 더 높은 품질의 지시 튜닝 데이터를 생성하며, (2) 일반 언어 모델과 지시 튜닝된 언어 모델 모두의 성능을 상당히 향상시키고, (3) 더 작은 크기의 지시 튜닝된 언어 모델이 더 큰 크기의 튜닝되지 않은 모델보다 더 유용한 출력을 생성합니다. 우리의 코드베이스는 https://github.com/IBM/ensemble-instruct에서 확인할 수 있습니다.
English
Using in-context learning (ICL) for data generation, techniques such as
Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023)
can train strong conversational agents with only a small amount of human
supervision. One limitation of these approaches is that they resort to very
large language models (around 175B parameters) that are also proprietary and
non-public. Here we explore the application of such techniques to language
models that are much smaller (around 10B--40B parameters) and have permissive
licenses. We find the Self-Instruct approach to be less effective at these
sizes and propose new ICL methods that draw on two main ideas: (a)
Categorization and simplification of the ICL templates to make prompt learning
easier for the LM, and (b) Ensembling over multiple LM outputs to help select
high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct
seed tasks and employs separate pipelines for instructions that require an
input and instructions that do not. Empirical investigations with different LMs
show that: (1) Our proposed method yields higher-quality instruction tuning
data than Self-Instruct, (2) It improves performances of both vanilla and
instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned
LMs generate more useful outputs than their larger un-tuned counterparts. Our
codebase is available at https://github.com/IBM/ensemble-instruct.