Auditoría de la Caché de Respuestas en Tiempo Real en las APIs de Modelos de Lenguaje

Resumen

El almacenamiento en caché de indicaciones en modelos de lenguaje grandes (LLMs) resulta en variaciones temporales dependientes de los datos: las indicaciones en caché se procesan más rápido que las indicaciones no almacenadas en caché. Estas diferencias temporales introducen el riesgo de ataques de temporización de canal lateral. Por ejemplo, si la caché se comparte entre usuarios, un atacante podría identificar indicaciones en caché a partir de los tiempos de respuesta rápida de la API para aprender información sobre las indicaciones de otros usuarios. Debido a que el almacenamiento en caché de indicaciones puede causar fugas de privacidad, es importante la transparencia en torno a las políticas de almacenamiento en caché de los proveedores de API. Con este fin, desarrollamos y realizamos auditorías estadísticas para detectar el almacenamiento en caché de indicaciones en proveedores de API de LLM del mundo real. Detectamos el intercambio global de caché entre usuarios en siete proveedores de API, incluido OpenAI, lo que resulta en posibles fugas de privacidad sobre las indicaciones de los usuarios. Las variaciones temporales debido al almacenamiento en caché de indicaciones también pueden resultar en la fuga de información sobre la arquitectura del modelo. Específicamente, encontramos evidencia de que el modelo de incrustación de OpenAI es un Transformer solo decodificador, lo cual no se conocía públicamente anteriormente.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Auditoría de la Caché de Respuestas en Tiempo Real en las APIs de Modelos de Lenguaje

Auditing Prompt Caching in Language Model APIs

Resumen

Support