Überprüfung des Zwischenspeicherns von Anfragen in Sprachmodell-APIs

papers.abstract

Die Zwischenspeicherung von Anfragen in großen Sprachmodellen (LLMs) führt zu datenabhängigen zeitlichen Variationen: Zwischengespeicherte Anfragen werden schneller verarbeitet als nicht zwischengespeicherte Anfragen. Diese zeitlichen Unterschiede bergen das Risiko von Side-Channel-Timing-Angriffen. Wenn der Cache beispielsweise von mehreren Benutzern gemeinsam genutzt wird, könnte ein Angreifer zwischengespeicherte Anfragen anhand schneller API-Antwortzeiten identifizieren, um Informationen über die Anfragen anderer Benutzer zu erhalten. Da die Zwischenspeicherung von Anfragen zu Datenschutzverletzungen führen kann, ist Transparenz bezüglich der Zwischenspeicherungsrichtlinien von API-Anbietern wichtig. Zu diesem Zweck entwickeln und führen wir statistische Überprüfungen durch, um die Zwischenspeicherung von Anfragen bei LLM-API-Anbietern in der realen Welt zu erkennen. Wir stellen fest, dass sieben API-Anbieter, darunter OpenAI, einen globalen Cache teilen, was zu potenziellen Datenschutzverletzungen bezüglich der Anfragen der Benutzer führt. Zeitliche Variationen aufgrund der Zwischenspeicherung von Anfragen können auch zu Informationen über die Modellarchitektur führen. Insbesondere finden wir Hinweise darauf, dass das Einbettungsmodell von OpenAI ein reiner Decoder-Transformer ist, was zuvor nicht öffentlich bekannt war.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Überprüfung des Zwischenspeicherns von Anfragen in Sprachmodell-APIs

Auditing Prompt Caching in Language Model APIs

papers.abstract

Support