ChatPaper.aiChatPaper

개인화된 증류: 코드 생성을 위한 적응형 학습으로 오픈소스 LLM 강화

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

October 28, 2023
저자: Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty
cs.AI

초록

강력한 폐쇄형 대형 언어 모델(LLM)(ChatGPT, GPT-4)의 부상과 함께, 폐쇄형 LLM의 능력을 더 작은 오픈소스 LLM으로 전이(distill)하려는 관심이 증가하고 있다. 기존의 전이 방법은 일반적으로 ChatGPT에게 일련의 지시와 답변을 생성하도록 요청하여, 학생 모델이 이를 학습하도록 한다. 그러나 이러한 표준 전이 접근법은 학생 모델의 장점과 조건을 간과한다. 현대 교육 원칙에서 영감을 받아, 우리는 학생이 먼저 과제를 해결하려고 시도한 후, 교사가 학생의 개선을 위해 적응형 피드백을 제공하는 개인화된 전이 과정을 설계했다. 교사의 사전 지식을 학생에게 제공하는 대신, 개인화된 전이는 학생 모델이 실수한 예제에 대해서만 학습하고 자신의 해결책을 개선하는 방법을 배우도록 함으로써 개인화된 학습을 가능하게 한다. 코드 생성 작업에서 개인화된 전이는 표준 전이보다 데이터 양이 1/3에 불과함에도 일관되게 더 나은 성능을 보였다. 데이터 수집 비용이 4-6$에 불과한 2.5-3K개의 개인화된 예제만으로, 우리는 CodeGen-mono-16B의 성능을 7% 향상시켜 HumanEval에서 36.4%의 pass@1을 달성했고, StarCoder의 성능을 12.2% 향상시켜 45.8%의 pass@1을 달성했다.
English
With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.
PDF81December 15, 2024