PUMA : Inférence sécurisée de LLaMA-7B en cinq minutes

papers.abstract

Avec ChatGPT comme représentant, de nombreuses entreprises ont commencé à proposer des services basés sur des modèles de Transformers de grande taille. Cependant, l'utilisation de tels services entraîne inévitablement la fuite des requêtes des utilisateurs vers le fournisseur du modèle. Des études précédentes ont exploré l'inférence sécurisée pour les modèles de Transformers en utilisant le calcul multipartite sécurisé (MPC), où les paramètres du modèle et les requêtes des clients restent confidentiels. Malgré cela, ces cadres restent limités en termes de performance du modèle, d'efficacité et de déploiement. Pour surmonter ces limitations, nous proposons le cadre PUMA, permettant une inférence rapide et sécurisée des modèles de Transformers. Notre cadre conçoit des approximations de haute qualité pour des fonctions coûteuses, telles que GeLU et Softmax, réduisant significativement le coût de l'inférence sécurisée tout en préservant la performance du modèle. De plus, nous concevons des procédures sécurisées pour l'Embedding et le LayerNorm qui implémentent fidèlement les fonctionnalités souhaitées sans compromettre l'architecture des Transformers. PUMA est environ 2 fois plus rapide que le cadre MPC de pointe MPCFORMER (ICLR 2023) et offre une précision similaire aux modèles en texte clair sans ajustement fin (ce que les travaux précédents n'ont pas réussi à atteindre). Par ailleurs, PUMA peut évaluer LLaMA-7B en environ 5 minutes pour générer 1 token. À notre connaissance, c'est la première fois qu'un modèle de cette taille de paramètres peut être évalué sous MPC. PUMA a été rendu open-source dans le dépôt Github de SecretFlow-SPU.

English

With ChatGPT as a representative, tons of companies have began to provide services based on large Transformers models. However, using such a service inevitably leak users' prompts to the model provider. Previous studies have studied secure inference for Transformer models using secure multiparty computation (MPC), where model parameters and clients' prompts are kept secret. Despite this, these frameworks are still limited in terms of model performance, efficiency, and deployment. To address these limitations, we propose framework PUMA to enable fast and secure Transformer model inference. Our framework designs high quality approximations for expensive functions, such as GeLU and Softmax, which significantly reduce the cost of secure inference while preserving the model performance. Additionally, we design secure Embedding and LayerNorm procedures that faithfully implement the desired functionality without undermining the Transformer architecture. PUMA is about 2x faster than the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar accuracy as plaintext models without fine-tuning (which the previous works failed to achieve). One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1 token. To our best knowledge, this is the first time that a model with such a parameter size is able to be evaluated under MPC. PUMA has been open-sourced in the Github repository of SecretFlow-SPU.

PUMA : Inférence sécurisée de LLaMA-7B en cinq minutes

PUMA: Secure Inference of LLaMA-7B in Five Minutes

papers.abstract

Support