ChatPaper.aiChatPaper

PUMA: Sichere Inferenz von LLaMA-7B in fünf Minuten

PUMA: Secure Inference of LLaMA-7B in Five Minutes

July 24, 2023
Autoren: Ye Dong, Wen-jie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, Wenguang Cheng
cs.AI

Zusammenfassung

Mit ChatGPT als prominentem Vertreter haben zahlreiche Unternehmen begonnen, Dienstleistungen auf der Grundlage großer Transformer-Modelle anzubieten. Die Nutzung solcher Dienste führt jedoch unweigerlich dazu, dass die Eingaben der Nutzer an den Modellanbieter weitergegeben werden. Frühere Studien haben die sichere Inferenz für Transformer-Modelle mithilfe von Secure Multiparty Computation (MPC) untersucht, wobei sowohl die Modellparameter als auch die Eingaben der Clients geheim gehalten werden. Trotzdem sind diese Frameworks in Bezug auf Modellleistung, Effizienz und Einsatzfähigkeit noch immer eingeschränkt. Um diese Einschränkungen zu überwinden, schlagen wir das Framework PUMA vor, das eine schnelle und sichere Inferenz für Transformer-Modelle ermöglicht. Unser Framework entwickelt hochwertige Approximationen für rechenintensive Funktionen wie GeLU und Softmax, die die Kosten der sicheren Inferenz erheblich reduzieren, ohne die Modellleistung zu beeinträchtigen. Zudem entwerfen wir sichere Verfahren für Embedding und LayerNorm, die die gewünschte Funktionalität zuverlässig implementieren, ohne die Transformer-Architektur zu untergraben. PUMA ist etwa doppelt so schnell wie das state-of-the-art MPC-Framework MPCFORMER (ICLR 2023) und erreicht eine ähnliche Genauigkeit wie Klartextmodelle ohne Feinabstimmung (was frühere Arbeiten nicht erreichen konnten). Ein weiterer Punkt ist, dass PUMA in der Lage ist, LLaMA-7B in etwa 5 Minuten zu evaluieren, um 1 Token zu generieren. Nach unserem besten Wissen ist dies das erste Mal, dass ein Modell mit einer solchen Parameteranzahl unter MPC evaluiert werden kann. PUMA wurde im Github-Repository von SecretFlow-SPU als Open-Source veröffentlicht.
English
With ChatGPT as a representative, tons of companies have began to provide services based on large Transformers models. However, using such a service inevitably leak users' prompts to the model provider. Previous studies have studied secure inference for Transformer models using secure multiparty computation (MPC), where model parameters and clients' prompts are kept secret. Despite this, these frameworks are still limited in terms of model performance, efficiency, and deployment. To address these limitations, we propose framework PUMA to enable fast and secure Transformer model inference. Our framework designs high quality approximations for expensive functions, such as GeLU and Softmax, which significantly reduce the cost of secure inference while preserving the model performance. Additionally, we design secure Embedding and LayerNorm procedures that faithfully implement the desired functionality without undermining the Transformer architecture. PUMA is about 2x faster than the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar accuracy as plaintext models without fine-tuning (which the previous works failed to achieve). One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1 token. To our best knowledge, this is the first time that a model with such a parameter size is able to be evaluated under MPC. PUMA has been open-sourced in the Github repository of SecretFlow-SPU.
PDF140December 15, 2024