PUMA : Inférence sécurisée de LLaMA-7B en cinq minutes
PUMA: Secure Inference of LLaMA-7B in Five Minutes
July 24, 2023
Auteurs: Ye Dong, Wen-jie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, Wenguang Cheng
cs.AI
Résumé
Avec ChatGPT comme représentant, de nombreuses entreprises ont commencé à proposer des services basés sur des modèles de Transformers de grande taille. Cependant, l'utilisation de tels services entraîne inévitablement la fuite des requêtes des utilisateurs vers le fournisseur du modèle. Des études précédentes ont exploré l'inférence sécurisée pour les modèles de Transformers en utilisant le calcul multipartite sécurisé (MPC), où les paramètres du modèle et les requêtes des clients restent confidentiels. Malgré cela, ces cadres restent limités en termes de performance du modèle, d'efficacité et de déploiement. Pour surmonter ces limitations, nous proposons le cadre PUMA, permettant une inférence rapide et sécurisée des modèles de Transformers. Notre cadre conçoit des approximations de haute qualité pour des fonctions coûteuses, telles que GeLU et Softmax, réduisant significativement le coût de l'inférence sécurisée tout en préservant la performance du modèle. De plus, nous concevons des procédures sécurisées pour l'Embedding et le LayerNorm qui implémentent fidèlement les fonctionnalités souhaitées sans compromettre l'architecture des Transformers. PUMA est environ 2 fois plus rapide que le cadre MPC de pointe MPCFORMER (ICLR 2023) et offre une précision similaire aux modèles en texte clair sans ajustement fin (ce que les travaux précédents n'ont pas réussi à atteindre).
Par ailleurs, PUMA peut évaluer LLaMA-7B en environ 5 minutes pour générer 1 token. À notre connaissance, c'est la première fois qu'un modèle de cette taille de paramètres peut être évalué sous MPC. PUMA a été rendu open-source dans le dépôt Github de SecretFlow-SPU.
English
With ChatGPT as a representative, tons of companies have began to provide
services based on large Transformers models. However, using such a service
inevitably leak users' prompts to the model provider. Previous studies have
studied secure inference for Transformer models using secure multiparty
computation (MPC), where model parameters and clients' prompts are kept secret.
Despite this, these frameworks are still limited in terms of model performance,
efficiency, and deployment. To address these limitations, we propose framework
PUMA to enable fast and secure Transformer model inference. Our framework
designs high quality approximations for expensive functions, such as GeLU and
Softmax, which significantly reduce the cost of secure inference while
preserving the model performance. Additionally, we design secure Embedding and
LayerNorm procedures that faithfully implement the desired functionality
without undermining the Transformer architecture. PUMA is about 2x faster than
the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar
accuracy as plaintext models without fine-tuning (which the previous works
failed to achieve).
One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1
token. To our best knowledge, this is the first time that a model with such a
parameter size is able to be evaluated under MPC. PUMA has been open-sourced in
the Github repository of SecretFlow-SPU.