Exploration de l'élagage fédéré pour les grands modèles de langage
Exploring Federated Pruning for Large Language Models
May 19, 2025
Auteurs: Pengxin Guo, Yinong Wang, Wei Li, Mengting Liu, Ming Li, Jinkai Zheng, Liangqiong Qu
cs.AI
Résumé
L'élagage des LLM (Large Language Models) est apparu comme une technologie prometteuse pour compresser les LLM, permettant leur déploiement sur des appareils aux ressources limitées. Cependant, les méthodologies actuelles nécessitent généralement l'accès à des échantillons de calibration publics, qui peuvent être difficiles à obtenir dans des domaines sensibles à la confidentialité. Pour résoudre ce problème, nous introduisons FedPrLLM, un cadre complet d'élagage fédéré conçu pour la compression des LLM tout en préservant la confidentialité. Dans FedPrLLM, chaque client n'a besoin que de calculer une matrice de masque d'élagage basée sur ses données de calibration locales et de la partager avec le serveur pour élaguer le modèle global. Cette approche permet un élagage collaboratif du modèle global en utilisant les connaissances de chaque client tout en préservant la confidentialité des données locales. De plus, nous menons des expériences approfondies pour explorer diverses possibilités au sein du cadre FedPrLLM, incluant différents groupes de comparaison, stratégies d'élagage, et la décision de mettre à l'échelle les poids. Notre évaluation approfondie révèle que l'élagage en une seule étape avec comparaison par couche et sans mise à l'échelle des poids est le choix optimal dans le cadre FedPrLLM. Nous espérons que notre travail guidera les futurs efforts d'élagage des LLM dans des domaines sensibles à la confidentialité. Notre code est disponible à l'adresse suivante : https://github.com/Pengxin-Guo/FedPrLLM.
English
LLM pruning has emerged as a promising technology for compressing LLMs,
enabling their deployment on resource-limited devices. However, current
methodologies typically require access to public calibration samples, which can
be challenging to obtain in privacy-sensitive domains. To address this issue,
we introduce FedPrLLM, a comprehensive federated pruning framework designed for
the privacy-preserving compression of LLMs. In FedPrLLM, each client only needs
to calculate a pruning mask matrix based on its local calibration data and
share it with the server to prune the global model. This approach allows for
collaborative pruning of the global model with the knowledge of each client
while maintaining local data privacy. Additionally, we conduct extensive
experiments to explore various possibilities within the FedPrLLM framework,
including different comparison groups, pruning strategies, and the decision to
scale weights. Our extensive evaluation reveals that one-shot pruning with
layer comparison and no weight scaling is the optimal choice within the
FedPrLLM framework. We hope our work will help guide future efforts in pruning
LLMs in privacy-sensitive fields. Our code is available at
https://github.com/Pengxin-Guo/FedPrLLM.Summary
AI-Generated Summary