ChatPaper.aiChatPaper

AERO: Softmax-Only LLMs für effiziente private Inferenz

AERO: Softmax-Only LLMs for Efficient Private Inference

October 16, 2024
Autoren: Nandan Kumar Jha, Brandon Reagen
cs.AI

Zusammenfassung

Die Verbreitung proprietärer Sprachmodelle hat Datenschutzbedenken hinsichtlich sensibler Nutzerdaten aufgeworfen und die Notwendigkeit für private Inferenz (PI) betont, bei der die Inferenz direkt auf verschlüsselten Eingaben durchgeführt wird. Allerdings stehen aktuelle PI-Methoden aufgrund nichtlinearer Operationen vor unverhältnismäßig höheren Kommunikations- und Latenzüberlastungen. In diesem Papier präsentieren wir eine umfassende Analyse, um die Rolle der Nichtlinearitäten in auf Decodern basierenden Sprachmodellen zu verstehen. Wir stellen AERO vor, ein vierstufiges architektonisches Optimierungsframework, das die bestehende LLM-Architektur für effiziente PI verfeinert, indem systematisch Nichtlinearitäten wie LayerNorm und GELU entfernt und die Anzahl der Gleitkommaoperationen reduziert werden. Zum ersten Mal schlagen wir eine ausschließlich auf Softmax basierende Architektur mit signifikant weniger Gleitkommaoperationen für effiziente PI vor. Darüber hinaus entwickeln wir eine neuartige Entropie-Regularisierungstechnik, um die Leistung von ausschließlich Softmax-Modellen zu verbessern. AERO erzielt eine bis zu 4,23-fache Kommunikations- und 1,94-fache Latenzreduktion. Wir validieren die Wirksamkeit von AERO, indem wir es mit dem Stand der Technik vergleichen.
English
The pervasiveness of proprietary language models has raised privacy concerns for users' sensitive data, emphasizing the need for private inference (PI), where inference is performed directly on encrypted inputs. However, current PI methods face prohibitively higher communication and latency overheads, primarily due to nonlinear operations. In this paper, we present a comprehensive analysis to understand the role of nonlinearities in transformer-based decoder-only language models. We introduce AERO, a four-step architectural optimization framework that refines the existing LLM architecture for efficient PI by systematically removing nonlinearities such as LayerNorm and GELU and reducing FLOPs counts. For the first time, we propose a Softmax-only architecture with significantly fewer FLOPs tailored for efficient PI. Furthermore, we devise a novel entropy regularization technique to improve the performance of Softmax-only models. AERO achieves up to 4.23times communication and 1.94times latency reduction. We validate the effectiveness of AERO by benchmarking it against the state-of-the-art.

Summary

AI-Generated Summary

PDF42November 16, 2024