Backdoors Arquitetônicas para Roubo de Dados Dentro de Lotes e Manipulação de Inferência de Modelos
Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation
May 23, 2025
Autores: Nicolas Küchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov
cs.AI
Resumo
Por quase uma década, a comunidade acadêmica investigou backdoors em redes neurais, focando principalmente em tarefas de classificação onde adversários manipulam a previsão do modelo. Embora claramente maliciosos, o impacto imediato no mundo real desses ataques que alteram previsões permaneceu incerto. Neste artigo, introduzimos uma nova e significativamente mais potente classe de backdoors que se baseia em avanços recentes em backdoors arquitetônicos. Demonstramos como esses backdoors podem ser especificamente projetados para explorar inferência em lote, uma técnica comum para utilização de hardware, permitindo manipulação e roubo de dados de usuários em larga escala. Ao direcionar o processo de batching, esses backdoors arquitetônicos facilitam o vazamento de informações entre solicitações de usuários concorrentes e permitem que os atacantes controlem totalmente as respostas do modelo direcionadas a outros usuários dentro do mesmo lote. Em outras palavras, um atacante que pode alterar a arquitetura do modelo pode definir e roubar entradas e saídas do modelo de outros usuários dentro do mesmo lote. Mostramos que tais ataques não apenas são viáveis, mas também alarmantemente eficazes, podem ser facilmente injetados em arquiteturas de modelos prevalentes e representam uma ameaça verdadeiramente maliciosa à privacidade do usuário e à integridade do sistema. Criticamente, para combater essa nova classe de vulnerabilidades, propomos uma estratégia de mitigação determinística que fornece garantias formais contra esse novo vetor de ataque, ao contrário de trabalhos anteriores que dependiam de Modelos de Linguagem de Grande Escala (LLMs) para encontrar os backdoors. Nossa estratégia de mitigação emprega um novo mecanismo de Controle de Fluxo de Informação que analisa o grafo do modelo e prova a não interferência entre diferentes entradas de usuários dentro do mesmo lote. Usando nossa estratégia de mitigação, realizamos uma análise em larga escala de modelos hospedados no Hugging Face e encontramos mais de 200 modelos que introduzem (involuntariamente) vazamento de informações entre entradas de lote devido ao uso de quantização dinâmica.
English
For nearly a decade the academic community has investigated backdoors in
neural networks, primarily focusing on classification tasks where adversaries
manipulate the model prediction. While demonstrably malicious, the immediate
real-world impact of such prediction-altering attacks has remained unclear. In
this paper we introduce a novel and significantly more potent class of
backdoors that builds upon recent advancements in architectural backdoors. We
demonstrate how these backdoors can be specifically engineered to exploit
batched inference, a common technique for hardware utilization, enabling
large-scale user data manipulation and theft. By targeting the batching
process, these architectural backdoors facilitate information leakage between
concurrent user requests and allow attackers to fully control model responses
directed at other users within the same batch. In other words, an attacker who
can change the model architecture can set and steal model inputs and outputs of
other users within the same batch. We show that such attacks are not only
feasible but also alarmingly effective, can be readily injected into prevalent
model architectures, and represent a truly malicious threat to user privacy and
system integrity. Critically, to counteract this new class of vulnerabilities,
we propose a deterministic mitigation strategy that provides formal guarantees
against this new attack vector, unlike prior work that relied on Large Language
Models to find the backdoors. Our mitigation strategy employs a novel
Information Flow Control mechanism that analyzes the model graph and proves
non-interference between different user inputs within the same batch. Using our
mitigation strategy we perform a large scale analysis of models hosted through
Hugging Face and find over 200 models that introduce (unintended) information
leakage between batch entries due to the use of dynamic quantization.