Portes dérobées architecturales pour le vol de données intra-lot et la manipulation de l'inférence du modèle
Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation
May 23, 2025
Auteurs: Nicolas Küchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov
cs.AI
Résumé
Depuis près d'une décennie, la communauté académique étudie les backdoors dans les réseaux de neurones, en se concentrant principalement sur les tâches de classification où les adversaires manipulent les prédictions du modèle. Bien que clairement malveillantes, l'impact concret de ces attaques altérant les prédictions est resté incertain. Dans cet article, nous introduisons une nouvelle classe de backdoors, bien plus puissante, qui s'appuie sur les avancées récentes en matière de backdoors architecturales. Nous démontrons comment ces backdoors peuvent être spécifiquement conçues pour exploiter l'inférence par lots, une technique courante pour optimiser l'utilisation du matériel, permettant ainsi la manipulation et le vol à grande échelle des données utilisateurs. En ciblant le processus de batching, ces backdoors architecturales facilitent la fuite d'informations entre les requêtes utilisateurs concurrentes et permettent aux attaquants de contrôler entièrement les réponses du modèle destinées à d'autres utilisateurs au sein du même lot. En d'autres termes, un attaquant capable de modifier l'architecture du modèle peut définir et voler les entrées et sorties du modèle d'autres utilisateurs dans le même lot. Nous montrons que de telles attaques sont non seulement réalisables, mais aussi alarmamment efficaces, peuvent être facilement injectées dans les architectures de modèles prévalentes, et représentent une menace véritablement malveillante pour la confidentialité des utilisateurs et l'intégrité du système. De manière cruciale, pour contrer cette nouvelle classe de vulnérabilités, nous proposons une stratégie de mitigation déterministe qui offre des garanties formelles contre ce nouveau vecteur d'attaque, contrairement aux travaux antérieurs qui s'appuyaient sur les modèles de langage de grande taille pour détecter les backdoors. Notre stratégie de mitigation utilise un nouveau mécanisme de Contrôle de Flux d'Information qui analyse le graphe du modèle et prouve la non-interférence entre les différentes entrées utilisateurs au sein du même lot. En utilisant notre stratégie de mitigation, nous réalisons une analyse à grande échelle des modèles hébergés sur Hugging Face et identifions plus de 200 modèles qui introduisent (involontairement) des fuites d'information entre les entrées de lots en raison de l'utilisation de la quantification dynamique.
English
For nearly a decade the academic community has investigated backdoors in
neural networks, primarily focusing on classification tasks where adversaries
manipulate the model prediction. While demonstrably malicious, the immediate
real-world impact of such prediction-altering attacks has remained unclear. In
this paper we introduce a novel and significantly more potent class of
backdoors that builds upon recent advancements in architectural backdoors. We
demonstrate how these backdoors can be specifically engineered to exploit
batched inference, a common technique for hardware utilization, enabling
large-scale user data manipulation and theft. By targeting the batching
process, these architectural backdoors facilitate information leakage between
concurrent user requests and allow attackers to fully control model responses
directed at other users within the same batch. In other words, an attacker who
can change the model architecture can set and steal model inputs and outputs of
other users within the same batch. We show that such attacks are not only
feasible but also alarmingly effective, can be readily injected into prevalent
model architectures, and represent a truly malicious threat to user privacy and
system integrity. Critically, to counteract this new class of vulnerabilities,
we propose a deterministic mitigation strategy that provides formal guarantees
against this new attack vector, unlike prior work that relied on Large Language
Models to find the backdoors. Our mitigation strategy employs a novel
Information Flow Control mechanism that analyzes the model graph and proves
non-interference between different user inputs within the same batch. Using our
mitigation strategy we perform a large scale analysis of models hosted through
Hugging Face and find over 200 models that introduce (unintended) information
leakage between batch entries due to the use of dynamic quantization.Summary
AI-Generated Summary