Exploration de l'élagage fédéré pour les grands modèles de langage

papers.abstract

L'élagage des LLM (Large Language Models) est apparu comme une technologie prometteuse pour compresser les LLM, permettant leur déploiement sur des appareils aux ressources limitées. Cependant, les méthodologies actuelles nécessitent généralement l'accès à des échantillons de calibration publics, qui peuvent être difficiles à obtenir dans des domaines sensibles à la confidentialité. Pour résoudre ce problème, nous introduisons FedPrLLM, un cadre complet d'élagage fédéré conçu pour la compression des LLM tout en préservant la confidentialité. Dans FedPrLLM, chaque client n'a besoin que de calculer une matrice de masque d'élagage basée sur ses données de calibration locales et de la partager avec le serveur pour élaguer le modèle global. Cette approche permet un élagage collaboratif du modèle global en utilisant les connaissances de chaque client tout en préservant la confidentialité des données locales. De plus, nous menons des expériences approfondies pour explorer diverses possibilités au sein du cadre FedPrLLM, incluant différents groupes de comparaison, stratégies d'élagage, et la décision de mettre à l'échelle les poids. Notre évaluation approfondie révèle que l'élagage en une seule étape avec comparaison par couche et sans mise à l'échelle des poids est le choix optimal dans le cadre FedPrLLM. Nous espérons que notre travail guidera les futurs efforts d'élagage des LLM dans des domaines sensibles à la confidentialité. Notre code est disponible à l'adresse suivante : https://github.com/Pengxin-Guo/FedPrLLM.

English

LLM pruning has emerged as a promising technology for compressing LLMs, enabling their deployment on resource-limited devices. However, current methodologies typically require access to public calibration samples, which can be challenging to obtain in privacy-sensitive domains. To address this issue, we introduce FedPrLLM, a comprehensive federated pruning framework designed for the privacy-preserving compression of LLMs. In FedPrLLM, each client only needs to calculate a pruning mask matrix based on its local calibration data and share it with the server to prune the global model. This approach allows for collaborative pruning of the global model with the knowledge of each client while maintaining local data privacy. Additionally, we conduct extensive experiments to explore various possibilities within the FedPrLLM framework, including different comparison groups, pruning strategies, and the decision to scale weights. Our extensive evaluation reveals that one-shot pruning with layer comparison and no weight scaling is the optimal choice within the FedPrLLM framework. We hope our work will help guide future efforts in pruning LLMs in privacy-sensitive fields. Our code is available at https://github.com/Pengxin-Guo/FedPrLLM.

Exploration de l'élagage fédéré pour les grands modèles de langage

Exploring Federated Pruning for Large Language Models

papers.abstract

Support