Verifica della memorizzazione nella cache delle richieste nelle API dei modelli linguistici

Abstract

La memorizzazione nella cache delle istanze nei grandi modelli linguistici (LLM) porta a variazioni temporali dipendenti dai dati: le istanze memorizzate nella cache vengono elaborate più velocemente rispetto alle istanze non memorizzate. Queste differenze temporali introducono il rischio di attacchi temporali a canale laterale. Ad esempio, se la cache è condivisa tra gli utenti, un attaccante potrebbe identificare le istanze memorizzate dai tempi di risposta API veloci per apprendere informazioni sulle istanze degli altri utenti. Poiché la memorizzazione delle istanze potrebbe causare perdite di privacy, è importante la trasparenza riguardo alle politiche di memorizzazione della cache dei fornitori di API. A tal fine, sviluppiamo e conduciamo audit statistici per rilevare la memorizzazione delle istanze nei fornitori di API LLM del mondo reale. Rileviamo la condivisione globale della cache tra gli utenti in sette fornitori di API, inclusa OpenAI, con conseguente possibile perdita di privacy riguardo alle istanze degli utenti. Le variazioni temporali dovute alla memorizzazione delle istanze possono anche portare a perdite di informazioni sull'architettura del modello. In particolare, troviamo prove che il modello di embedding di OpenAI è un Transformer solo-decoder, informazione precedentemente non nota pubblicamente.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Verifica della memorizzazione nella cache delle richieste nelle API dei modelli linguistici

Auditing Prompt Caching in Language Model APIs

Abstract

Support