AERO: LLM с использованием только функции Softmax для эффективного приватного вывода
AERO: Softmax-Only LLMs for Efficient Private Inference
October 16, 2024
Авторы: Nandan Kumar Jha, Brandon Reagen
cs.AI
Аннотация
Всеобщее распространение собственных языковых моделей вызвало опасения по поводу конфиденциальности чувствительных данных пользователей, подчеркивая необходимость частного вывода (PI), при котором вывод выполняется непосредственно на зашифрованных входных данных. Однако текущие методы PI сталкиваются с чрезмерно высокими накладными расходами на коммуникацию и задержку, в основном из-за нелинейных операций. В данной статье мы представляем комплексный анализ для понимания роли нелинейностей в языковых моделях только декодера на основе трансформера. Мы представляем AERO, четырехэтапную архитектурную оптимизацию, которая улучшает существующую архитектуру LLM для эффективного PI путем систематического удаления нелинейностей, таких как LayerNorm и GELU, а также уменьшения количества операций с плавающей запятой. Впервые мы предлагаем архитектуру только с Softmax с значительно меньшим количеством операций с плавающей запятой, созданную для эффективного PI. Более того, мы разработали новую технику регуляризации энтропии для улучшения производительности моделей только с Softmax. AERO достигает снижения накладных расходов на коммуникацию до 4,23 раз и задержки до 1,94 раза. Мы подтверждаем эффективность AERO, сравнивая ее с передовыми методами.
English
The pervasiveness of proprietary language models has raised privacy concerns
for users' sensitive data, emphasizing the need for private inference (PI),
where inference is performed directly on encrypted inputs. However, current PI
methods face prohibitively higher communication and latency overheads,
primarily due to nonlinear operations. In this paper, we present a
comprehensive analysis to understand the role of nonlinearities in
transformer-based decoder-only language models. We introduce AERO, a four-step
architectural optimization framework that refines the existing LLM architecture
for efficient PI by systematically removing nonlinearities such as LayerNorm
and GELU and reducing FLOPs counts. For the first time, we propose a
Softmax-only architecture with significantly fewer FLOPs tailored for efficient
PI. Furthermore, we devise a novel entropy regularization technique to improve
the performance of Softmax-only models. AERO achieves up to 4.23times
communication and 1.94times latency reduction. We validate the effectiveness
of AERO by benchmarking it against the state-of-the-art.