Exploration de la purification des connaissances dans la distillation des connaissances multi-enseignants pour les grands modèles de langage

Résumé

La distillation des connaissances est devenue une technique essentielle pour transférer le savoir des grands modèles de langage (LLM) plus performants vers des modèles plus petits et efficaces. Cependant, les approches traditionnelles de distillation rencontrent des défis liés aux conflits de connaissances et aux exigences élevées en ressources, particulièrement lorsqu’elles exploitent plusieurs modèles enseignants. Dans cet article, nous introduisons le concept de Purification des Connaissances, qui consolide les raisonnements de plusieurs LLM enseignants en un raisonnement unique, atténuant ainsi les conflits et améliorant l’efficacité. Pour étudier l’efficacité de la purification des connaissances, nous proposons en outre cinq méthodes de purification sous différents angles. Nos expériences démontrent que ces méthodes améliorent non seulement les performances du modèle distillé, mais atténuent aussi efficacement les conflits de connaissances. De plus, les méthodes basées sur un routeur présentent des capacités de généralisation robustes, soulignant le potentiel des techniques innovantes de purification pour optimiser la distillation multi-enseignants et faciliter le déploiement pratique de modèles puissants mais légers.

English

Knowledge distillation has emerged as a pivotal technique for transferring knowledge from stronger large language models (LLMs) to smaller, more efficient models. However, traditional distillation approaches face challenges related to knowledge conflicts and high resource demands, particularly when leveraging multiple teacher models. In this paper, we introduce the concept of Knowledge Purification, which consolidates the rationales from multiple teacher LLMs into a single rationale, thereby mitigating conflicts and enhancing efficiency. To investigate the effectiveness of knowledge purification, we further propose five purification methods from various perspectives. Our experiments demonstrate that these methods not only improve the performance of the distilled model but also effectively alleviate knowledge conflicts. Moreover, router-based methods exhibit robust generalization capabilities, underscoring the potential of innovative purification techniques in optimizing multi-teacher distillation and facilitating the practical deployment of powerful yet lightweight models.

Exploration de la purification des connaissances dans la distillation des connaissances multi-enseignants pour les grands modèles de langage

Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs

Résumé

Support