AERO: Modelli di Linguaggio a Moltiplicatori Softmax per un'Inferenza Privata Efficient.

Abstract

La diffusione diffusa dei modelli linguistici proprietari ha sollevato preoccupazioni sulla privacy per i dati sensibili degli utenti, sottolineando la necessità di inferenza privata (PI), dove l'inferenza viene eseguita direttamente su input crittografati. Tuttavia, i metodi attuali di PI affrontano sovraccarichi di comunicazione e latenza proibitivamente più elevati, principalmente a causa delle operazioni non lineari. In questo articolo, presentiamo un'analisi esaustiva per comprendere il ruolo delle non linearità nei modelli linguistici basati su trasformatori con soli decoder. Introduciamo AERO, un framework di ottimizzazione architetturale a quattro fasi che perfeziona l'architettura esistente di LLM per un'efficiente PI rimuovendo sistematicamente non linearità come LayerNorm e GELU e riducendo il conteggio di FLOPs. Per la prima volta, proponiamo un'architettura basata solo su Softmax con un numero significativamente inferiore di FLOPs progettata per un'efficiente PI. Inoltre, ideiamo una nuova tecnica di regolarizzazione dell'entropia per migliorare le prestazioni dei modelli basati solo su Softmax. AERO raggiunge fino a 4,23 volte di riduzione della comunicazione e 1,94 volte di riduzione della latenza. Confermiamo l'efficacia di AERO confrontandola con lo stato dell'arte.

English

The pervasiveness of proprietary language models has raised privacy concerns for users' sensitive data, emphasizing the need for private inference (PI), where inference is performed directly on encrypted inputs. However, current PI methods face prohibitively higher communication and latency overheads, primarily due to nonlinear operations. In this paper, we present a comprehensive analysis to understand the role of nonlinearities in transformer-based decoder-only language models. We introduce AERO, a four-step architectural optimization framework that refines the existing LLM architecture for efficient PI by systematically removing nonlinearities such as LayerNorm and GELU and reducing FLOPs counts. For the first time, we propose a Softmax-only architecture with significantly fewer FLOPs tailored for efficient PI. Furthermore, we devise a novel entropy regularization technique to improve the performance of Softmax-only models. AERO achieves up to 4.23times communication and 1.94times latency reduction. We validate the effectiveness of AERO by benchmarking it against the state-of-the-art.

AERO: Modelli di Linguaggio a Moltiplicatori Softmax per un'Inferenza Privata Efficient.

AERO: Softmax-Only LLMs for Efficient Private Inference

Abstract

Summary

Support

Support