Portes dérobées architecturales pour le vol de données intra-lot et la manipulation de l'inférence du modèle

papers.abstract

Depuis près d'une décennie, la communauté académique étudie les backdoors dans les réseaux de neurones, en se concentrant principalement sur les tâches de classification où les adversaires manipulent les prédictions du modèle. Bien que clairement malveillantes, l'impact concret de ces attaques altérant les prédictions est resté incertain. Dans cet article, nous introduisons une nouvelle classe de backdoors, bien plus puissante, qui s'appuie sur les avancées récentes en matière de backdoors architecturales. Nous démontrons comment ces backdoors peuvent être spécifiquement conçues pour exploiter l'inférence par lots, une technique courante pour optimiser l'utilisation du matériel, permettant ainsi la manipulation et le vol à grande échelle des données utilisateurs. En ciblant le processus de batching, ces backdoors architecturales facilitent la fuite d'informations entre les requêtes utilisateurs concurrentes et permettent aux attaquants de contrôler entièrement les réponses du modèle destinées à d'autres utilisateurs au sein du même lot. En d'autres termes, un attaquant capable de modifier l'architecture du modèle peut définir et voler les entrées et sorties du modèle d'autres utilisateurs dans le même lot. Nous montrons que de telles attaques sont non seulement réalisables, mais aussi alarmamment efficaces, peuvent être facilement injectées dans les architectures de modèles prévalentes, et représentent une menace véritablement malveillante pour la confidentialité des utilisateurs et l'intégrité du système. De manière cruciale, pour contrer cette nouvelle classe de vulnérabilités, nous proposons une stratégie de mitigation déterministe qui offre des garanties formelles contre ce nouveau vecteur d'attaque, contrairement aux travaux antérieurs qui s'appuyaient sur les modèles de langage de grande taille pour détecter les backdoors. Notre stratégie de mitigation utilise un nouveau mécanisme de Contrôle de Flux d'Information qui analyse le graphe du modèle et prouve la non-interférence entre les différentes entrées utilisateurs au sein du même lot. En utilisant notre stratégie de mitigation, nous réalisons une analyse à grande échelle des modèles hébergés sur Hugging Face et identifions plus de 200 modèles qui introduisent (involontairement) des fuites d'information entre les entrées de lots en raison de l'utilisation de la quantification dynamique.

English

For nearly a decade the academic community has investigated backdoors in neural networks, primarily focusing on classification tasks where adversaries manipulate the model prediction. While demonstrably malicious, the immediate real-world impact of such prediction-altering attacks has remained unclear. In this paper we introduce a novel and significantly more potent class of backdoors that builds upon recent advancements in architectural backdoors. We demonstrate how these backdoors can be specifically engineered to exploit batched inference, a common technique for hardware utilization, enabling large-scale user data manipulation and theft. By targeting the batching process, these architectural backdoors facilitate information leakage between concurrent user requests and allow attackers to fully control model responses directed at other users within the same batch. In other words, an attacker who can change the model architecture can set and steal model inputs and outputs of other users within the same batch. We show that such attacks are not only feasible but also alarmingly effective, can be readily injected into prevalent model architectures, and represent a truly malicious threat to user privacy and system integrity. Critically, to counteract this new class of vulnerabilities, we propose a deterministic mitigation strategy that provides formal guarantees against this new attack vector, unlike prior work that relied on Large Language Models to find the backdoors. Our mitigation strategy employs a novel Information Flow Control mechanism that analyzes the model graph and proves non-interference between different user inputs within the same batch. Using our mitigation strategy we perform a large scale analysis of models hosted through Hugging Face and find over 200 models that introduce (unintended) information leakage between batch entries due to the use of dynamic quantization.

Portes dérobées architecturales pour le vol de données intra-lot et la manipulation de l'inférence du modèle

Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

papers.abstract

Support