AERO: Modelli di Linguaggio a Moltiplicatori Softmax per un'Inferenza Privata Efficient.
AERO: Softmax-Only LLMs for Efficient Private Inference
October 16, 2024
Autori: Nandan Kumar Jha, Brandon Reagen
cs.AI
Abstract
La diffusione diffusa dei modelli linguistici proprietari ha sollevato preoccupazioni sulla privacy per i dati sensibili degli utenti, sottolineando la necessità di inferenza privata (PI), dove l'inferenza viene eseguita direttamente su input crittografati. Tuttavia, i metodi attuali di PI affrontano sovraccarichi di comunicazione e latenza proibitivamente più elevati, principalmente a causa delle operazioni non lineari. In questo articolo, presentiamo un'analisi esaustiva per comprendere il ruolo delle non linearità nei modelli linguistici basati su trasformatori con soli decoder. Introduciamo AERO, un framework di ottimizzazione architetturale a quattro fasi che perfeziona l'architettura esistente di LLM per un'efficiente PI rimuovendo sistematicamente non linearità come LayerNorm e GELU e riducendo il conteggio di FLOPs. Per la prima volta, proponiamo un'architettura basata solo su Softmax con un numero significativamente inferiore di FLOPs progettata per un'efficiente PI. Inoltre, ideiamo una nuova tecnica di regolarizzazione dell'entropia per migliorare le prestazioni dei modelli basati solo su Softmax. AERO raggiunge fino a 4,23 volte di riduzione della comunicazione e 1,94 volte di riduzione della latenza. Confermiamo l'efficacia di AERO confrontandola con lo stato dell'arte.
English
The pervasiveness of proprietary language models has raised privacy concerns
for users' sensitive data, emphasizing the need for private inference (PI),
where inference is performed directly on encrypted inputs. However, current PI
methods face prohibitively higher communication and latency overheads,
primarily due to nonlinear operations. In this paper, we present a
comprehensive analysis to understand the role of nonlinearities in
transformer-based decoder-only language models. We introduce AERO, a four-step
architectural optimization framework that refines the existing LLM architecture
for efficient PI by systematically removing nonlinearities such as LayerNorm
and GELU and reducing FLOPs counts. For the first time, we propose a
Softmax-only architecture with significantly fewer FLOPs tailored for efficient
PI. Furthermore, we devise a novel entropy regularization technique to improve
the performance of Softmax-only models. AERO achieves up to 4.23times
communication and 1.94times latency reduction. We validate the effectiveness
of AERO by benchmarking it against the state-of-the-art.Summary
AI-Generated Summary