ChatPaper.aiChatPaper

Roubo de prompts do usuário de uma Mistura de Especialistas

Stealing User Prompts from Mixture of Experts

October 30, 2024
Autores: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI

Resumo

Os modelos de Mixture-of-Experts (MoE) melhoram a eficiência e escalabilidade dos modelos de linguagem densa ao direcionar cada token para um pequeno número de especialistas em cada camada. Neste artigo, demonstramos como um adversário que consegue organizar suas consultas para aparecer na mesma leva de exemplos que as consultas de uma vítima pode explorar a Roteamento de Escolha de Especialista para revelar completamente o prompt de uma vítima. Demonstramos com sucesso a eficácia desse ataque em um modelo Mixtral de duas camadas, explorando o comportamento de tratamento de empate da implementação CUDA torch.topk. Nossos resultados mostram que podemos extrair o prompt inteiro usando consultas O({VM}^2) (com tamanho de vocabulário V e comprimento do prompt M) ou 100 consultas em média por token no cenário que consideramos. Este é o primeiro ataque a explorar falhas arquiteturais com o propósito de extrair prompts de usuário, introduzindo uma nova classe de vulnerabilidades de LLM.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Summary

AI-Generated Summary

PDF142November 16, 2024