Auditoría de la Caché de Respuestas en Tiempo Real en las APIs de Modelos de Lenguaje
Auditing Prompt Caching in Language Model APIs
February 11, 2025
Autores: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
Resumen
El almacenamiento en caché de indicaciones en modelos de lenguaje grandes (LLMs) resulta en variaciones temporales dependientes de los datos: las indicaciones en caché se procesan más rápido que las indicaciones no almacenadas en caché. Estas diferencias temporales introducen el riesgo de ataques de temporización de canal lateral. Por ejemplo, si la caché se comparte entre usuarios, un atacante podría identificar indicaciones en caché a partir de los tiempos de respuesta rápida de la API para aprender información sobre las indicaciones de otros usuarios. Debido a que el almacenamiento en caché de indicaciones puede causar fugas de privacidad, es importante la transparencia en torno a las políticas de almacenamiento en caché de los proveedores de API. Con este fin, desarrollamos y realizamos auditorías estadísticas para detectar el almacenamiento en caché de indicaciones en proveedores de API de LLM del mundo real. Detectamos el intercambio global de caché entre usuarios en siete proveedores de API, incluido OpenAI, lo que resulta en posibles fugas de privacidad sobre las indicaciones de los usuarios. Las variaciones temporales debido al almacenamiento en caché de indicaciones también pueden resultar en la fuga de información sobre la arquitectura del modelo. Específicamente, encontramos evidencia de que el modelo de incrustación de OpenAI es un Transformer solo decodificador, lo cual no se conocía públicamente anteriormente.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary