Проверка кэширования запросов в API языковых моделей
Auditing Prompt Caching in Language Model APIs
February 11, 2025
Авторы: Chenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto
cs.AI
Аннотация
Кэширование подсказок в больших языковых моделях (LLM) приводит к зависимым от данных временным вариациям: кэшированные подсказки обрабатываются быстрее, чем некэшированные. Эти временные различия представляют риск временных атак через боковые каналы. Например, если кеш общий для пользователей, злоумышленник может идентифицировать кэшированные подсказки по быстрым временам ответа API, чтобы получить информацию о подсказках других пользователей. Поскольку кэширование подсказок может вызвать утечку конфиденциальной информации, важна прозрачность в отношении политик кэширования у поставщиков API. В этом контексте мы разрабатываем и проводим статистические проверки для обнаружения кэширования подсказок у поставщиков реальных LLM API. Мы обнаруживаем глобальное общее использование кеша между пользователями в семи поставщиках API, включая OpenAI, что приводит к потенциальной утечке конфиденциальной информации о подсказках пользователей. Вариации времени из-за кэширования подсказок также могут привести к утечке информации о структуре модели. В частности, мы обнаруживаем доказательства того, что модель встраивания OpenAI является только декодером Transformer, что ранее не было общедоступной информацией.
English
Prompt caching in large language models (LLMs) results in data-dependent
timing variations: cached prompts are processed faster than non-cached prompts.
These timing differences introduce the risk of side-channel timing attacks. For
example, if the cache is shared across users, an attacker could identify cached
prompts from fast API response times to learn information about other users'
prompts. Because prompt caching may cause privacy leakage, transparency around
the caching policies of API providers is important. To this end, we develop and
conduct statistical audits to detect prompt caching in real-world LLM API
providers. We detect global cache sharing across users in seven API providers,
including OpenAI, resulting in potential privacy leakage about users' prompts.
Timing variations due to prompt caching can also result in leakage of
information about model architecture. Namely, we find evidence that OpenAI's
embedding model is a decoder-only Transformer, which was previously not
publicly known.Summary
AI-Generated Summary