PUMA: Veilige Inferentie van LLaMA-7B in Vijf Minuten
PUMA: Secure Inference of LLaMA-7B in Five Minutes
July 24, 2023
Auteurs: Ye Dong, Wen-jie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, Wenguang Cheng
cs.AI
Samenvatting
Met ChatGPT als representant zijn talloze bedrijven begonnen met het aanbieden van diensten gebaseerd op grote Transformer-modellen. Het gebruik van een dergelijke dienst leidt echter onvermijdelijk tot het lekken van gebruikersprompts naar de modelaanbieder. Eerdere studies hebben veilige inferentie voor Transformer-modellen onderzocht met behulp van secure multiparty computation (MPC), waarbij modelparameters en prompts van clients geheim blijven. Desondanks zijn deze frameworks nog steeds beperkt wat betreft modelprestaties, efficiëntie en implementatie. Om deze beperkingen aan te pakken, stellen we het framework PUMA voor om snelle en veilige inferentie van Transformer-modellen mogelijk te maken. Ons framework ontwerpt hoogwaardige benaderingen voor dure functies, zoals GeLU en Softmax, die de kosten van veilige inferentie aanzienlijk verlagen terwijl de modelprestaties behouden blijven. Daarnaast ontwerpen we veilige Embedding- en LayerNorm-procedures die de gewenste functionaliteit nauwkeurig implementeren zonder de Transformer-architectuur te ondermijnen. PUMA is ongeveer 2x sneller dan het state-of-the-art MPC-framework MPCFORMER (ICLR 2023) en heeft een vergelijkbare nauwkeurigheid als plaintext-modellen zonder fine-tuning (wat eerdere werken niet konden bereiken).
Bovendien kan PUMA LLaMA-7B evalueren in ongeveer 5 minuten om 1 token te genereren. Voor zover wij weten, is dit de eerste keer dat een model met een dergelijke parameteromvang onder MPC kan worden geëvalueerd. PUMA is open-source gemaakt in de Github-repository van SecretFlow-SPU.
English
With ChatGPT as a representative, tons of companies have began to provide
services based on large Transformers models. However, using such a service
inevitably leak users' prompts to the model provider. Previous studies have
studied secure inference for Transformer models using secure multiparty
computation (MPC), where model parameters and clients' prompts are kept secret.
Despite this, these frameworks are still limited in terms of model performance,
efficiency, and deployment. To address these limitations, we propose framework
PUMA to enable fast and secure Transformer model inference. Our framework
designs high quality approximations for expensive functions, such as GeLU and
Softmax, which significantly reduce the cost of secure inference while
preserving the model performance. Additionally, we design secure Embedding and
LayerNorm procedures that faithfully implement the desired functionality
without undermining the Transformer architecture. PUMA is about 2x faster than
the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar
accuracy as plaintext models without fine-tuning (which the previous works
failed to achieve).
One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1
token. To our best knowledge, this is the first time that a model with such a
parameter size is able to be evaluated under MPC. PUMA has been open-sourced in
the Github repository of SecretFlow-SPU.