Architectonische Backdoors voor Datadiefstal binnen Batches en Manipulatie van Modelinferentie

Samenvatting

Bijna een decennium lang heeft de academische gemeenschap onderzoek gedaan naar backdoors in neurale netwerken, waarbij de focus voornamelijk lag op classificatietaken waarbij tegenstanders de modelvoorspelling manipuleren. Hoewel deze aanvallen duidelijk kwaadaardig zijn, is de directe impact ervan in de praktijk onduidelijk gebleven. In dit artikel introduceren we een nieuwe en aanzienlijk krachtigere klasse van backdoors die voortbouwt op recente ontwikkelingen in architecturale backdoors. We demonstreren hoe deze backdoors specifiek kunnen worden ontworpen om batched inference te exploiteren, een veelgebruikte techniek voor hardwarebenutting, waardoor grootschalige manipulatie en diefstal van gebruikersgegevens mogelijk wordt. Door het batchingproces te targeten, vergemakkelijken deze architecturale backdoors informatielekken tussen gelijktijdige gebruikersverzoeken en stellen ze aanvallers in staat om modelreacties die naar andere gebruikers binnen dezelfde batch worden gestuurd volledig te controleren. Met andere woorden, een aanvaller die de modelarchitectuur kan wijzigen, kan de modelinvoer en -uitvoer van andere gebruikers binnen dezelfde batch instellen en stelen. We tonen aan dat dergelijke aanvallen niet alleen haalbaar zijn, maar ook verontrustend effectief, gemakkelijk kunnen worden geïnjecteerd in veelvoorkomende modelarchitecturen, en een echt kwaadaardige bedreiging vormen voor de privacy van gebruikers en de integriteit van systemen. Cruciaal is dat we, om deze nieuwe klasse van kwetsbaarheden tegen te gaan, een deterministische mitigatiestrategie voorstellen die formele garanties biedt tegen deze nieuwe aanvalsvector, in tegenstelling tot eerder werk dat vertrouwde op Large Language Models om de backdoors te vinden. Onze mitigatiestrategie maakt gebruik van een nieuw Information Flow Control-mechanisme dat de modelgrafiek analyseert en non-interferentie tussen verschillende gebruikersinvoeren binnen dezelfde batch bewijst. Met behulp van onze mitigatiestrategie voeren we een grootschalige analyse uit van modellen die via Hugging Face worden gehost en vinden we meer dan 200 modellen die (onbedoelde) informatielekken tussen batchvermeldingen introduceren vanwege het gebruik van dynamische kwantisatie.

English

For nearly a decade the academic community has investigated backdoors in neural networks, primarily focusing on classification tasks where adversaries manipulate the model prediction. While demonstrably malicious, the immediate real-world impact of such prediction-altering attacks has remained unclear. In this paper we introduce a novel and significantly more potent class of backdoors that builds upon recent advancements in architectural backdoors. We demonstrate how these backdoors can be specifically engineered to exploit batched inference, a common technique for hardware utilization, enabling large-scale user data manipulation and theft. By targeting the batching process, these architectural backdoors facilitate information leakage between concurrent user requests and allow attackers to fully control model responses directed at other users within the same batch. In other words, an attacker who can change the model architecture can set and steal model inputs and outputs of other users within the same batch. We show that such attacks are not only feasible but also alarmingly effective, can be readily injected into prevalent model architectures, and represent a truly malicious threat to user privacy and system integrity. Critically, to counteract this new class of vulnerabilities, we propose a deterministic mitigation strategy that provides formal guarantees against this new attack vector, unlike prior work that relied on Large Language Models to find the backdoors. Our mitigation strategy employs a novel Information Flow Control mechanism that analyzes the model graph and proves non-interference between different user inputs within the same batch. Using our mitigation strategy we perform a large scale analysis of models hosted through Hugging Face and find over 200 models that introduce (unintended) information leakage between batch entries due to the use of dynamic quantization.

Architectonische Backdoors voor Datadiefstal binnen Batches en Manipulatie van Modelinferentie

Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

Samenvatting

Support