PLaD : Distillation de modèles de langage de grande taille basée sur les préférences avec des paires de pseudo-préférences
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs
June 5, 2024
Auteurs: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités impressionnantes dans diverses tâches, mais leurs tailles de paramètres importantes limitent leur applicabilité dans des environnements à ressources contraintes. La distillation de connaissances (KD) offre une solution viable en transférant l'expertise des grands modèles enseignants vers des modèles étudiants compacts. Cependant, les techniques traditionnelles de KD rencontrent des défis spécifiques lorsqu'elles sont appliquées aux LLM, notamment un accès restreint aux sorties des LLM, des écarts significatifs de capacité entre enseignant et étudiant, et le problème hérité de mauvaise calibration. Dans ce travail, nous présentons PLaD, un nouveau cadre de distillation de LLM basé sur les préférences. PLaD exploite la différence de capacité entre enseignant et étudiant pour générer des paires de pseudo-préférences où les sorties de l'enseignant sont préférées à celles de l'étudiant. Ensuite, PLaD utilise une fonction de perte de classement pour recalibrer l'estimation de la vraisemblance des séquences par l'étudiant, ce qui oriente l'attention de l'étudiant vers la compréhension de la qualité relative des sorties plutôt que de simplement imiter l'enseignant. PLaD contourne le besoin d'accéder aux états internes du LLM enseignant, aborde les limitations d'expressivité de l'étudiant et atténue le problème de mauvaise calibration de l'étudiant. À travers des expériences approfondies sur deux tâches de génération de séquences et avec divers LLM, nous démontrons l'efficacité de notre cadre PLaD proposé.
English
Large Language Models (LLMs) have exhibited impressive capabilities in
various tasks, yet their vast parameter sizes restrict their applicability in
resource-constrained settings. Knowledge distillation (KD) offers a viable
solution by transferring expertise from large teacher models to compact student
models. However, traditional KD techniques face specific challenges when
applied to LLMs, including restricted access to LLM outputs, significant
teacher-student capacity gaps, and the inherited mis-calibration issue. In this
work, we present PLaD, a novel preference-based LLM distillation framework.
PLaD exploits the teacher-student capacity discrepancy to generate
pseudo-preference pairs where teacher outputs are preferred over student
outputs. Then, PLaD leverages a ranking loss to re-calibrate student's
estimation of sequence likelihood, which steers the student's focus towards
understanding the relative quality of outputs instead of simply imitating the
teacher. PLaD bypasses the need for access to teacher LLM's internal states,
tackles the student's expressivity limitations, and mitigates the student
mis-calibration issue. Through extensive experiments on two sequence generation
tasks and with various LLMs, we demonstrate the effectiveness of our proposed
PLaD framework.Summary
AI-Generated Summary