AERO: Softmax-Only LLMs für effiziente private Inferenz
AERO: Softmax-Only LLMs for Efficient Private Inference
October 16, 2024
Autoren: Nandan Kumar Jha, Brandon Reagen
cs.AI
Zusammenfassung
Die Verbreitung proprietärer Sprachmodelle hat Datenschutzbedenken hinsichtlich sensibler Nutzerdaten aufgeworfen und die Notwendigkeit für private Inferenz (PI) betont, bei der die Inferenz direkt auf verschlüsselten Eingaben durchgeführt wird. Allerdings stehen aktuelle PI-Methoden aufgrund nichtlinearer Operationen vor unverhältnismäßig höheren Kommunikations- und Latenzüberlastungen. In diesem Papier präsentieren wir eine umfassende Analyse, um die Rolle der Nichtlinearitäten in auf Decodern basierenden Sprachmodellen zu verstehen. Wir stellen AERO vor, ein vierstufiges architektonisches Optimierungsframework, das die bestehende LLM-Architektur für effiziente PI verfeinert, indem systematisch Nichtlinearitäten wie LayerNorm und GELU entfernt und die Anzahl der Gleitkommaoperationen reduziert werden. Zum ersten Mal schlagen wir eine ausschließlich auf Softmax basierende Architektur mit signifikant weniger Gleitkommaoperationen für effiziente PI vor. Darüber hinaus entwickeln wir eine neuartige Entropie-Regularisierungstechnik, um die Leistung von ausschließlich Softmax-Modellen zu verbessern. AERO erzielt eine bis zu 4,23-fache Kommunikations- und 1,94-fache Latenzreduktion. Wir validieren die Wirksamkeit von AERO, indem wir es mit dem Stand der Technik vergleichen.
English
The pervasiveness of proprietary language models has raised privacy concerns
for users' sensitive data, emphasizing the need for private inference (PI),
where inference is performed directly on encrypted inputs. However, current PI
methods face prohibitively higher communication and latency overheads,
primarily due to nonlinear operations. In this paper, we present a
comprehensive analysis to understand the role of nonlinearities in
transformer-based decoder-only language models. We introduce AERO, a four-step
architectural optimization framework that refines the existing LLM architecture
for efficient PI by systematically removing nonlinearities such as LayerNorm
and GELU and reducing FLOPs counts. For the first time, we propose a
Softmax-only architecture with significantly fewer FLOPs tailored for efficient
PI. Furthermore, we devise a novel entropy regularization technique to improve
the performance of Softmax-only models. AERO achieves up to 4.23times
communication and 1.94times latency reduction. We validate the effectiveness
of AERO by benchmarking it against the state-of-the-art.Summary
AI-Generated Summary