PUMA: Безопасный вывод LLaMA-7B за пять минут
PUMA: Secure Inference of LLaMA-7B in Five Minutes
July 24, 2023
Авторы: Ye Dong, Wen-jie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, Wenguang Cheng
cs.AI
Аннотация
С появлением ChatGPT множество компаний начали предоставлять услуги на основе крупных моделей Transformer. Однако использование таких сервисов неизбежно приводит к утечке пользовательских запросов к поставщику модели. Предыдущие исследования изучали безопасный вывод для моделей Transformer с использованием безопасных многосторонних вычислений (MPC), где параметры модели и запросы клиентов остаются конфиденциальными. Несмотря на это, эти фреймворки всё ещё ограничены в плане производительности модели, эффективности и развёртывания. Чтобы устранить эти ограничения, мы предлагаем фреймворк PUMA, который обеспечивает быстрый и безопасный вывод моделей Transformer. Наш фреймворк разрабатывает высококачественные аппроксимации для дорогостоящих функций, таких как GeLU и Softmax, что значительно снижает затраты на безопасный вывод, сохраняя при этом производительность модели. Кроме того, мы разработали безопасные процедуры Embedding и LayerNorm, которые точно реализуют требуемую функциональность, не нарушая архитектуру Transformer. PUMA примерно в 2 раза быстрее, чем современный MPC-фреймворк MPCFORMER (ICLR 2023), и имеет точность, сопоставимую с моделями в открытом тексте, без необходимости тонкой настройки (чего не удалось достичь в предыдущих работах).
Кроме того, PUMA может оценить модель LLaMA-7B примерно за 5 минут для генерации одного токена. Насколько нам известно, это первый случай, когда модель с таким количеством параметров может быть оценена в рамках MPC. PUMA была открыта в репозитории GitHub SecretFlow-SPU.
English
With ChatGPT as a representative, tons of companies have began to provide
services based on large Transformers models. However, using such a service
inevitably leak users' prompts to the model provider. Previous studies have
studied secure inference for Transformer models using secure multiparty
computation (MPC), where model parameters and clients' prompts are kept secret.
Despite this, these frameworks are still limited in terms of model performance,
efficiency, and deployment. To address these limitations, we propose framework
PUMA to enable fast and secure Transformer model inference. Our framework
designs high quality approximations for expensive functions, such as GeLU and
Softmax, which significantly reduce the cost of secure inference while
preserving the model performance. Additionally, we design secure Embedding and
LayerNorm procedures that faithfully implement the desired functionality
without undermining the Transformer architecture. PUMA is about 2x faster than
the state-of-the-art MPC framework MPCFORMER(ICLR 2023) and has similar
accuracy as plaintext models without fine-tuning (which the previous works
failed to achieve).
One more thing, PUMA can evaluate LLaMA-7B in around 5 minutes to generate 1
token. To our best knowledge, this is the first time that a model with such a
parameter size is able to be evaluated under MPC. PUMA has been open-sourced in
the Github repository of SecretFlow-SPU.