Ensemble-Instruct: 異種混合言語モデルを用いた指示チューニングデータの生成
Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs
October 21, 2023
著者: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ramón Fernandez Astudillo
cs.AI
要旨
文脈内学習(ICL)をデータ生成に活用することで、Self-Instruct(Wang et al., 2023)やその後継であるAlpaca(Taori et al., 2023)などの手法は、わずかな人間の監督のみで強力な対話エージェントを訓練することが可能です。これらのアプローチの制約の一つは、非常に大規模な言語モデル(約175Bパラメータ)に依存している点であり、これらはプロプライエタリで非公開でもあります。本稿では、これらの手法をはるかに小規模(約10B〜40Bパラメータ)で許諾ライセンスを持つ言語モデルに適用することを探求します。Self-Instructアプローチはこの規模では効果が低いことがわかり、新しいICL手法を提案します。その主なアイデアは次の2つです:(a) ICLテンプレートの分類と簡素化により、言語モデル(LM)がプロンプト学習を容易に行えるようにすること、(b) 複数のLM出力をアンサンブルして、高品質な合成例を選択するのに役立てることです。我々のアルゴリズムは、175のSelf-Instructシードタスクを活用し、入力が必要な指示と不要な指示に対して別々のパイプラインを採用します。異なるLMを用いた実証研究により、以下の結果が得られました:(1) 提案手法はSelf-Instructよりも高品質な指示チューニングデータを生成する、(2) バニラLMと指示チューニング済みLMの両方の性能を大幅に向上させる、(3) 小規模な指示チューニング済みLMは、大規模な未チューニングのLMよりも有用な出力を生成する。我々のコードベースはhttps://github.com/IBM/ensemble-instructで公開されています。
English
Using in-context learning (ICL) for data generation, techniques such as
Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023)
can train strong conversational agents with only a small amount of human
supervision. One limitation of these approaches is that they resort to very
large language models (around 175B parameters) that are also proprietary and
non-public. Here we explore the application of such techniques to language
models that are much smaller (around 10B--40B parameters) and have permissive
licenses. We find the Self-Instruct approach to be less effective at these
sizes and propose new ICL methods that draw on two main ideas: (a)
Categorization and simplification of the ICL templates to make prompt learning
easier for the LM, and (b) Ensembling over multiple LM outputs to help select
high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct
seed tasks and employs separate pipelines for instructions that require an
input and instructions that do not. Empirical investigations with different LMs
show that: (1) Our proposed method yields higher-quality instruction tuning
data than Self-Instruct, (2) It improves performances of both vanilla and
instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned
LMs generate more useful outputs than their larger un-tuned counterparts. Our
codebase is available at https://github.com/IBM/ensemble-instruct.