ChatPaper.aiChatPaper

Robando indicaciones de usuario de la mezcla de expertos

Stealing User Prompts from Mixture of Experts

October 30, 2024
Autores: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini
cs.AI

Resumen

Los modelos de Mezcla de Expertos (MoE) mejoran la eficiencia y escalabilidad de los modelos de lenguaje densos al dirigir cada token a un pequeño número de expertos en cada capa. En este documento, mostramos cómo un adversario que puede organizar que sus consultas aparezcan en el mismo lote de ejemplos que las consultas de una víctima puede explotar la Elección de Expertos para revelar por completo la indicación de la víctima. Demostramos con éxito la efectividad de este ataque en un modelo Mixtral de dos capas, explotando el comportamiento de manejo de empates de la implementación CUDA torch.topk. Nuestros resultados muestran que podemos extraer la indicación completa utilizando consultas de O({VM}^2) (con tamaño de vocabulario V y longitud de indicación M) o 100 consultas en promedio por token en el escenario que consideramos. Este es el primer ataque que explota fallas arquitectónicas con el propósito de extraer indicaciones de usuario, introduciendo una nueva clase de vulnerabilidades de LLM.
English
Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using O({VM}^2) queries (with vocabulary size V and prompt length M) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.

Summary

AI-Generated Summary

PDF142November 16, 2024