Backdoors Arquitetônicas para Roubo de Dados Dentro de Lotes e Manipulação de Inferência de Modelos

Resumo

Por quase uma década, a comunidade acadêmica investigou backdoors em redes neurais, focando principalmente em tarefas de classificação onde adversários manipulam a previsão do modelo. Embora claramente maliciosos, o impacto imediato no mundo real desses ataques que alteram previsões permaneceu incerto. Neste artigo, introduzimos uma nova e significativamente mais potente classe de backdoors que se baseia em avanços recentes em backdoors arquitetônicos. Demonstramos como esses backdoors podem ser especificamente projetados para explorar inferência em lote, uma técnica comum para utilização de hardware, permitindo manipulação e roubo de dados de usuários em larga escala. Ao direcionar o processo de batching, esses backdoors arquitetônicos facilitam o vazamento de informações entre solicitações de usuários concorrentes e permitem que os atacantes controlem totalmente as respostas do modelo direcionadas a outros usuários dentro do mesmo lote. Em outras palavras, um atacante que pode alterar a arquitetura do modelo pode definir e roubar entradas e saídas do modelo de outros usuários dentro do mesmo lote. Mostramos que tais ataques não apenas são viáveis, mas também alarmantemente eficazes, podem ser facilmente injetados em arquiteturas de modelos prevalentes e representam uma ameaça verdadeiramente maliciosa à privacidade do usuário e à integridade do sistema. Criticamente, para combater essa nova classe de vulnerabilidades, propomos uma estratégia de mitigação determinística que fornece garantias formais contra esse novo vetor de ataque, ao contrário de trabalhos anteriores que dependiam de Modelos de Linguagem de Grande Escala (LLMs) para encontrar os backdoors. Nossa estratégia de mitigação emprega um novo mecanismo de Controle de Fluxo de Informação que analisa o grafo do modelo e prova a não interferência entre diferentes entradas de usuários dentro do mesmo lote. Usando nossa estratégia de mitigação, realizamos uma análise em larga escala de modelos hospedados no Hugging Face e encontramos mais de 200 modelos que introduzem (involuntariamente) vazamento de informações entre entradas de lote devido ao uso de quantização dinâmica.

English

For nearly a decade the academic community has investigated backdoors in neural networks, primarily focusing on classification tasks where adversaries manipulate the model prediction. While demonstrably malicious, the immediate real-world impact of such prediction-altering attacks has remained unclear. In this paper we introduce a novel and significantly more potent class of backdoors that builds upon recent advancements in architectural backdoors. We demonstrate how these backdoors can be specifically engineered to exploit batched inference, a common technique for hardware utilization, enabling large-scale user data manipulation and theft. By targeting the batching process, these architectural backdoors facilitate information leakage between concurrent user requests and allow attackers to fully control model responses directed at other users within the same batch. In other words, an attacker who can change the model architecture can set and steal model inputs and outputs of other users within the same batch. We show that such attacks are not only feasible but also alarmingly effective, can be readily injected into prevalent model architectures, and represent a truly malicious threat to user privacy and system integrity. Critically, to counteract this new class of vulnerabilities, we propose a deterministic mitigation strategy that provides formal guarantees against this new attack vector, unlike prior work that relied on Large Language Models to find the backdoors. Our mitigation strategy employs a novel Information Flow Control mechanism that analyzes the model graph and proves non-interference between different user inputs within the same batch. Using our mitigation strategy we perform a large scale analysis of models hosted through Hugging Face and find over 200 models that introduce (unintended) information leakage between batch entries due to the use of dynamic quantization.

Backdoors Arquitetônicas para Roubo de Dados Dentro de Lotes e Manipulação de Inferência de Modelos

Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

Resumo

Support