Architectonische Backdoors voor Datadiefstal binnen Batches en Manipulatie van Modelinferentie
Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation
May 23, 2025
Auteurs: Nicolas Küchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov
cs.AI
Samenvatting
Bijna een decennium lang heeft de academische gemeenschap onderzoek gedaan naar backdoors in neurale netwerken, waarbij de focus voornamelijk lag op classificatietaken waarbij tegenstanders de modelvoorspelling manipuleren. Hoewel deze aanvallen duidelijk kwaadaardig zijn, is de directe impact ervan in de praktijk onduidelijk gebleven. In dit artikel introduceren we een nieuwe en aanzienlijk krachtigere klasse van backdoors die voortbouwt op recente ontwikkelingen in architecturale backdoors. We demonstreren hoe deze backdoors specifiek kunnen worden ontworpen om batched inference te exploiteren, een veelgebruikte techniek voor hardwarebenutting, waardoor grootschalige manipulatie en diefstal van gebruikersgegevens mogelijk wordt. Door het batchingproces te targeten, vergemakkelijken deze architecturale backdoors informatielekken tussen gelijktijdige gebruikersverzoeken en stellen ze aanvallers in staat om modelreacties die naar andere gebruikers binnen dezelfde batch worden gestuurd volledig te controleren. Met andere woorden, een aanvaller die de modelarchitectuur kan wijzigen, kan de modelinvoer en -uitvoer van andere gebruikers binnen dezelfde batch instellen en stelen. We tonen aan dat dergelijke aanvallen niet alleen haalbaar zijn, maar ook verontrustend effectief, gemakkelijk kunnen worden geïnjecteerd in veelvoorkomende modelarchitecturen, en een echt kwaadaardige bedreiging vormen voor de privacy van gebruikers en de integriteit van systemen. Cruciaal is dat we, om deze nieuwe klasse van kwetsbaarheden tegen te gaan, een deterministische mitigatiestrategie voorstellen die formele garanties biedt tegen deze nieuwe aanvalsvector, in tegenstelling tot eerder werk dat vertrouwde op Large Language Models om de backdoors te vinden. Onze mitigatiestrategie maakt gebruik van een nieuw Information Flow Control-mechanisme dat de modelgrafiek analyseert en non-interferentie tussen verschillende gebruikersinvoeren binnen dezelfde batch bewijst. Met behulp van onze mitigatiestrategie voeren we een grootschalige analyse uit van modellen die via Hugging Face worden gehost en vinden we meer dan 200 modellen die (onbedoelde) informatielekken tussen batchvermeldingen introduceren vanwege het gebruik van dynamische kwantisatie.
English
For nearly a decade the academic community has investigated backdoors in
neural networks, primarily focusing on classification tasks where adversaries
manipulate the model prediction. While demonstrably malicious, the immediate
real-world impact of such prediction-altering attacks has remained unclear. In
this paper we introduce a novel and significantly more potent class of
backdoors that builds upon recent advancements in architectural backdoors. We
demonstrate how these backdoors can be specifically engineered to exploit
batched inference, a common technique for hardware utilization, enabling
large-scale user data manipulation and theft. By targeting the batching
process, these architectural backdoors facilitate information leakage between
concurrent user requests and allow attackers to fully control model responses
directed at other users within the same batch. In other words, an attacker who
can change the model architecture can set and steal model inputs and outputs of
other users within the same batch. We show that such attacks are not only
feasible but also alarmingly effective, can be readily injected into prevalent
model architectures, and represent a truly malicious threat to user privacy and
system integrity. Critically, to counteract this new class of vulnerabilities,
we propose a deterministic mitigation strategy that provides formal guarantees
against this new attack vector, unlike prior work that relied on Large Language
Models to find the backdoors. Our mitigation strategy employs a novel
Information Flow Control mechanism that analyzes the model graph and proves
non-interference between different user inputs within the same batch. Using our
mitigation strategy we perform a large scale analysis of models hosted through
Hugging Face and find over 200 models that introduce (unintended) information
leakage between batch entries due to the use of dynamic quantization.