Überprüfung des Zwischenspeicherns von Anfragen in Sprachmodell-APIs
Auditing Prompt Caching in Language Model APIs
February 11, 2025
Autoren: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
Zusammenfassung
Die Zwischenspeicherung von Anfragen in großen Sprachmodellen (LLMs) führt zu datenabhängigen zeitlichen Variationen: Zwischengespeicherte Anfragen werden schneller verarbeitet als nicht zwischengespeicherte Anfragen. Diese zeitlichen Unterschiede bergen das Risiko von Side-Channel-Timing-Angriffen. Wenn der Cache beispielsweise von mehreren Benutzern gemeinsam genutzt wird, könnte ein Angreifer zwischengespeicherte Anfragen anhand schneller API-Antwortzeiten identifizieren, um Informationen über die Anfragen anderer Benutzer zu erhalten. Da die Zwischenspeicherung von Anfragen zu Datenschutzverletzungen führen kann, ist Transparenz bezüglich der Zwischenspeicherungsrichtlinien von API-Anbietern wichtig. Zu diesem Zweck entwickeln und führen wir statistische Überprüfungen durch, um die Zwischenspeicherung von Anfragen bei LLM-API-Anbietern in der realen Welt zu erkennen. Wir stellen fest, dass sieben API-Anbieter, darunter OpenAI, einen globalen Cache teilen, was zu potenziellen Datenschutzverletzungen bezüglich der Anfragen der Benutzer führt. Zeitliche Variationen aufgrund der Zwischenspeicherung von Anfragen können auch zu Informationen über die Modellarchitektur führen. Insbesondere finden wir Hinweise darauf, dass das Einbettungsmodell von OpenAI ein reiner Decoder-Transformer ist, was zuvor nicht öffentlich bekannt war.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary