Проверка кэширования запросов в API языковых моделей

Аннотация

Кэширование подсказок в больших языковых моделях (LLM) приводит к зависимым от данных временным вариациям: кэшированные подсказки обрабатываются быстрее, чем некэшированные. Эти временные различия представляют риск временных атак через боковые каналы. Например, если кеш общий для пользователей, злоумышленник может идентифицировать кэшированные подсказки по быстрым временам ответа API, чтобы получить информацию о подсказках других пользователей. Поскольку кэширование подсказок может вызвать утечку конфиденциальной информации, важна прозрачность в отношении политик кэширования у поставщиков API. В этом контексте мы разрабатываем и проводим статистические проверки для обнаружения кэширования подсказок у поставщиков реальных LLM API. Мы обнаруживаем глобальное общее использование кеша между пользователями в семи поставщиках API, включая OpenAI, что приводит к потенциальной утечке конфиденциальной информации о подсказках пользователей. Вариации времени из-за кэширования подсказок также могут привести к утечке информации о структуре модели. В частности, мы обнаруживаем доказательства того, что модель встраивания OpenAI является только декодером Transformer, что ранее не было общедоступной информацией.

English

Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.

Проверка кэширования запросов в API языковых моделей

Auditing Prompt Caching in Language Model APIs

Аннотация

Support