Distillation Personnalisée : Renforcer les LLM Open-Source grâce à l'Apprentissage Adaptatif pour la Génération de Code

papers.abstract

Avec l'émergence de modèles de langage (LLM) puissants et propriétaires (ChatGPT, GPT-4), l'intérêt pour distiller les capacités de ces LLM propriétaires vers des LLM open-source plus petits ne cesse de croître. Les méthodes de distillation précédentes incitent généralement ChatGPT à générer un ensemble d'instructions et de réponses, que le modèle étudiant doit apprendre. Cependant, cette approche standard de distillation néglige les mérites et les conditions spécifiques du modèle étudiant. Inspirés par les principes pédagogiques modernes, nous concevons un processus de distillation personnalisé, dans lequel l'étudiant tente d'abord de résoudre une tâche, puis l'enseignant fournit un raffinement adaptatif pour que l'étudiant s'améliore. Au lieu de nourrir l'étudiant avec les connaissances préalables de l'enseignant, la distillation personnalisée permet un apprentissage personnalisé pour le modèle étudiant, car il n'apprend que sur les exemples où il commet des erreurs et améliore ainsi sa propre solution. En génération de code, la distillation personnalisée surpasse systématiquement la distillation standard avec seulement un tiers des données. Avec seulement 2,5 à 3 000 exemples personnalisés, impliquant un coût de collecte de données de 4 à 6 dollars, nous améliorons CodeGen-mono-16B de 7 % pour atteindre 36,4 % de pass@1 et StarCoder de 12,2 % pour atteindre 45,8 % de pass@1 sur HumanEval.

English

With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.

Distillation Personnalisée : Renforcer les LLM Open-Source grâce à l'Apprentissage Adaptatif pour la Génération de Code

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation

papers.abstract

Support