PUMA: Veilige Inferentie van LLaMA-7B in Vijf Minuten

Samenvatting

Met ChatGPT als representant zijn talloze bedrijven begonnen met het aanbieden van diensten gebaseerd op grote Transformer-modellen. Het gebruik van een dergelijke dienst leidt echter onvermijdelijk tot het lekken van gebruikersprompts naar de modelaanbieder. Eerdere studies hebben veilige inferentie voor Transformer-modellen onderzocht met behulp van secure multiparty computation (MPC), waarbij modelparameters en prompts van clients geheim blijven. Desondanks zijn deze frameworks nog steeds beperkt wat betreft modelprestaties, efficiëntie en implementatie. Om deze beperkingen aan te pakken, stellen we het framework PUMA voor om snelle en veilige inferentie van Transformer-modellen mogelijk te maken. Ons framework ontwerpt hoogwaardige benaderingen voor dure functies, zoals GeLU en Softmax, die de kosten van veilige inferentie aanzienlijk verlagen terwijl de modelprestaties behouden blijven. Daarnaast ontwerpen we veilige Embedding- en LayerNorm-procedures die de gewenste functionaliteit nauwkeurig implementeren zonder de Transformer-architectuur te ondermijnen. PUMA is ongeveer 2x sneller dan het state-of-the-art MPC-framework MPCFORMER (ICLR 2023) en heeft een vergelijkbare nauwkeurigheid als plaintext-modellen zonder fine-tuning (wat eerdere werken niet konden bereiken). Bovendien kan PUMA LLaMA-7B evalueren in ongeveer 5 minuten om 1 token te genereren. Voor zover wij weten, is dit de eerste keer dat een model met een dergelijke parameteromvang onder MPC kan worden geëvalueerd. PUMA is open-source gemaakt in de Github-repository van SecretFlow-SPU.

English

With ChatGPT as a representative, tons of companies have began to provide services based on large Transformers models. However, using such a service inevitably leak users' prompts to the model provider. Previous studies have studied secure inference for Transformer models using secure multiparty computation (MPC), where model parameters and clients' prompts are kept secret. Despite this, these frameworks are still limited in terms of model performance, efficiency, and deployment. To address these limitations, we propose framework PUMA to enable fast and secure Transformer model inference. Our framework designs high quality approximations for expensive functions, such as GeLU and Softmax, which significantly reduce the cost of secure inference while preserving the model performance. Additionally, we design secure Embedding and LayerNorm procedures that faithfully implement the desired functionality without undermining the Transformer architecture. PUMA is about 2x faster than the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar accuracy as plaintext models without fine-tuning (which the previous works failed to achieve). One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1 token. To our best knowledge, this is the first time that a model with such a parameter size is able to be evaluated under MPC. PUMA has been open-sourced in the Github repository of SecretFlow-SPU.

PUMA: Veilige Inferentie van LLaMA-7B in Vijf Minuten

PUMA: Secure Inference of LLaMA-7B in Five Minutes

Samenvatting

Support