Verifica della memorizzazione nella cache delle richieste nelle API dei modelli linguistici
Auditing Prompt Caching in Language Model APIs
February 11, 2025
Autori: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
Abstract
La memorizzazione nella cache delle istanze nei grandi modelli linguistici (LLM) porta a variazioni temporali dipendenti dai dati: le istanze memorizzate nella cache vengono elaborate più velocemente rispetto alle istanze non memorizzate. Queste differenze temporali introducono il rischio di attacchi temporali a canale laterale. Ad esempio, se la cache è condivisa tra gli utenti, un attaccante potrebbe identificare le istanze memorizzate dai tempi di risposta API veloci per apprendere informazioni sulle istanze degli altri utenti. Poiché la memorizzazione delle istanze potrebbe causare perdite di privacy, è importante la trasparenza riguardo alle politiche di memorizzazione della cache dei fornitori di API. A tal fine, sviluppiamo e conduciamo audit statistici per rilevare la memorizzazione delle istanze nei fornitori di API LLM del mondo reale. Rileviamo la condivisione globale della cache tra gli utenti in sette fornitori di API, inclusa OpenAI, con conseguente possibile perdita di privacy riguardo alle istanze degli utenti. Le variazioni temporali dovute alla memorizzazione delle istanze possono anche portare a perdite di informazioni sull'architettura del modello. In particolare, troviamo prove che il modello di embedding di OpenAI è un Transformer solo-decoder, informazione precedentemente non nota pubblicamente.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary