PUMA: Inferencia Segura de LLaMA-7B en Cinco Minutos
PUMA: Secure Inference of LLaMA-7B in Five Minutes
July 24, 2023
Autores: Ye Dong, Wen-jie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, Wenguang Cheng
cs.AI
Resumen
Con ChatGPT como representante, numerosas empresas han comenzado a ofrecer servicios basados en modelos grandes de Transformers. Sin embargo, el uso de dichos servicios inevitablemente expone las indicaciones de los usuarios al proveedor del modelo. Estudios previos han explorado la inferencia segura para modelos Transformer utilizando computación multipartita segura (MPC), donde tanto los parámetros del modelo como las indicaciones de los clientes se mantienen en secreto. A pesar de esto, estos marcos siguen siendo limitados en términos de rendimiento del modelo, eficiencia y despliegue. Para abordar estas limitaciones, proponemos el marco PUMA, que permite una inferencia rápida y segura en modelos Transformer. Nuestro marco diseña aproximaciones de alta calidad para funciones costosas, como GeLU y Softmax, lo que reduce significativamente el costo de la inferencia segura mientras se preserva el rendimiento del modelo. Además, diseñamos procedimientos seguros para Embedding y LayerNorm que implementan fielmente la funcionalidad deseada sin comprometer la arquitectura Transformer. PUMA es aproximadamente 2 veces más rápido que el marco MPC de última generación MPCFORMER (ICLR 2023) y tiene una precisión similar a los modelos en texto plano sin necesidad de ajuste fino (algo que los trabajos anteriores no lograron alcanzar).
Otro aspecto destacable es que PUMA puede evaluar LLaMA-7B en aproximadamente 5 minutos para generar 1 token. Hasta donde sabemos, esta es la primera vez que un modelo con un tamaño de parámetros tan grande puede ser evaluado bajo MPC. PUMA ha sido publicado como código abierto en el repositorio de GitHub de SecretFlow-SPU.
English
With ChatGPT as a representative, tons of companies have began to provide
services based on large Transformers models. However, using such a service
inevitably leak users' prompts to the model provider. Previous studies have
studied secure inference for Transformer models using secure multiparty
computation (MPC), where model parameters and clients' prompts are kept secret.
Despite this, these frameworks are still limited in terms of model performance,
efficiency, and deployment. To address these limitations, we propose framework
PUMA to enable fast and secure Transformer model inference. Our framework
designs high quality approximations for expensive functions, such as GeLU and
Softmax, which significantly reduce the cost of secure inference while
preserving the model performance. Additionally, we design secure Embedding and
LayerNorm procedures that faithfully implement the desired functionality
without undermining the Transformer architecture. PUMA is about 2x faster than
the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar
accuracy as plaintext models without fine-tuning (which the previous works
failed to achieve).
One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1
token. To our best knowledge, this is the first time that a model with such a
parameter size is able to be evaluated under MPC. PUMA has been open-sourced in
the Github repository of SecretFlow-SPU.