Кража пользовательских подсказок из смеси экспертов

Аннотация

Модели смеси экспертов (MoE) улучшают эффективность и масштабируемость плотных языковых моделей путем направления каждого токена к небольшому числу экспертов на каждом уровне. В данной статье мы показываем, как злоумышленник, который может организовать свои запросы так, чтобы они появлялись в одном пакете примеров с запросами жертвы, может использовать маршрутизацию выбора экспертов для полного раскрытия запроса жертвы. Мы успешно демонстрируем эффективность этой атаки на двухуровневой модели Mixtral, используя поведение обработки связей в реализации torch.topk CUDA. Наши результаты показывают, что мы можем извлечь весь запрос, используя O({VM}^2) запросов (с размером словаря V и длиной запроса M) или в среднем 100 запросов на токен в рассматриваемой ситуации. Это первая атака, использующая архитектурные недочеты для извлечения пользовательских запросов, вводя новый класс уязвимостей LLM.

English

Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Кража пользовательских подсказок из смеси экспертов

Stealing User Prompts from Mixture of Experts

Аннотация

Support