ChatPaper.aiChatPaper

パーソナライズド蒸留:コード生成のための適応学習によるオープンソースLLMの強化

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

October 28, 2023
著者: Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty
cs.AI

要旨

強力なクローズドソースのLLM(ChatGPT、GPT-4)の台頭に伴い、クローズドソースのLLMの能力をより小さなオープンソースのLLMに蒸留することに対する関心が高まっています。従来の蒸留手法では、通常、ChatGPTに一連の指示と回答を生成させ、それを学生モデルに学習させていました。しかし、このような標準的な蒸留アプローチでは、学生モデルの利点や条件が考慮されていませんでした。現代の教育原理にインスパイアされ、私たちはパーソナライズされた蒸留プロセスを設計しました。このプロセスでは、学生がまずタスクを解決しようとし、その後、教師が学生の改善のために適応的な改良を提供します。教師の事前知識を学生に与える代わりに、パーソナライズされた蒸留は、学生モデルが誤りを犯した例のみを学習し、自身の解決策を改善することを学ぶパーソナライズされた学習を可能にします。コード生成において、パーソナライズされた蒸留は、データ量が3分の1であるにもかかわらず、標準的な蒸留を一貫して上回りました。わずか2.5-3Kのパーソナライズされた例(データ収集コストは4-6ドル)を用いて、CodeGen-mono-16Bを7%向上させて36.4%のpass@1を達成し、StarCoderを12.2%向上させて45.8%のpass@1をHumanEvalで達成しました。
English
With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.
PDF81December 15, 2024