Auditoria de Armazenamento em Cache de Comandos em APIs de Modelos de Linguagem

Resumo

O armazenamento em cache de prompts em grandes modelos de linguagem (LLMs) resulta em variações de tempo dependentes dos dados: prompts armazenados em cache são processados mais rapidamente do que prompts não armazenados em cache. Essas diferenças de tempo introduzem o risco de ataques de temporização de canal lateral. Por exemplo, se o cache for compartilhado entre usuários, um atacante poderia identificar prompts em cache a partir de tempos de resposta de API rápidos para aprender informações sobre prompts de outros usuários. Como o armazenamento em cache de prompts pode causar vazamento de privacidade, a transparência em torno das políticas de armazenamento em cache dos provedores de API é importante. Para isso, desenvolvemos e realizamos auditorias estatísticas para detectar o armazenamento em cache de prompts em provedores de API de LLM do mundo real. Detectamos o compartilhamento global de cache entre usuários em sete provedores de API, incluindo a OpenAI, resultando em vazamento potencial de privacidade sobre os prompts dos usuários. Variações de tempo devido ao armazenamento em cache de prompts também podem resultar em vazamento de informações sobre a arquitetura do modelo. Em particular, encontramos evidências de que o modelo de incorporação da OpenAI é um Transformer apenas decodificador, o que anteriormente não era publicamente conhecido.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Auditoria de Armazenamento em Cache de Comandos em APIs de Modelos de Linguagem

Auditing Prompt Caching in Language Model APIs

Resumo

Support