Backdoor Architetturali per il Furto di Dati all'Interno del Batch e la Manipolazione dell'Inferenza del Modello

Abstract

Per quasi un decennio, la comunità accademica ha investigato le backdoor nelle reti neurali, concentrandosi principalmente sui task di classificazione in cui gli avversari manipolano le previsioni del modello. Sebbene chiaramente maliziose, l'impatto immediato nel mondo reale di tali attacchi che alterano le previsioni è rimasto poco chiaro. In questo articolo introduciamo una nuova e significativamente più potente classe di backdoor che si basa sui recenti progressi nelle backdoor architetturali. Dimostriamo come queste backdoor possano essere specificamente progettate per sfruttare l'inferenza in batch, una tecnica comune per l'utilizzo dell'hardware, consentendo la manipolazione e il furto su larga scala dei dati degli utenti. Mirando al processo di batching, queste backdoor architetturali facilitano la fuoriuscita di informazioni tra richieste concorrenti degli utenti e permettono agli attaccanti di controllare completamente le risposte del modello dirette ad altri utenti all'interno dello stesso batch. In altre parole, un attaccante che può modificare l'architettura del modello può impostare e rubare gli input e gli output del modello di altri utenti all'interno dello stesso batch. Mostriamo che tali attacchi non sono solo fattibili ma anche allarmantemente efficaci, possono essere facilmente iniettati in architetture di modelli prevalenti e rappresentano una minaccia veramente maliziosa per la privacy degli utenti e l'integrità del sistema. In modo cruciale, per contrastare questa nuova classe di vulnerabilità, proponiamo una strategia di mitigazione deterministica che fornisce garanzie formali contro questo nuovo vettore di attacco, a differenza del lavoro precedente che si basava sui Large Language Model per trovare le backdoor. La nostra strategia di mitigazione impiega un nuovo meccanismo di Controllo del Flusso di Informazioni che analizza il grafo del modello e dimostra la non interferenza tra diversi input degli utenti all'interno dello stesso batch. Utilizzando la nostra strategia di mitigazione, eseguiamo un'analisi su larga scala dei modelli ospitati su Hugging Face e troviamo oltre 200 modelli che introducono (involontariamente) una fuoriuscita di informazioni tra le voci del batch a causa dell'uso della quantizzazione dinamica.

English

For nearly a decade the academic community has investigated backdoors in neural networks, primarily focusing on classification tasks where adversaries manipulate the model prediction. While demonstrably malicious, the immediate real-world impact of such prediction-altering attacks has remained unclear. In this paper we introduce a novel and significantly more potent class of backdoors that builds upon recent advancements in architectural backdoors. We demonstrate how these backdoors can be specifically engineered to exploit batched inference, a common technique for hardware utilization, enabling large-scale user data manipulation and theft. By targeting the batching process, these architectural backdoors facilitate information leakage between concurrent user requests and allow attackers to fully control model responses directed at other users within the same batch. In other words, an attacker who can change the model architecture can set and steal model inputs and outputs of other users within the same batch. We show that such attacks are not only feasible but also alarmingly effective, can be readily injected into prevalent model architectures, and represent a truly malicious threat to user privacy and system integrity. Critically, to counteract this new class of vulnerabilities, we propose a deterministic mitigation strategy that provides formal guarantees against this new attack vector, unlike prior work that relied on Large Language Models to find the backdoors. Our mitigation strategy employs a novel Information Flow Control mechanism that analyzes the model graph and proves non-interference between different user inputs within the same batch. Using our mitigation strategy we perform a large scale analysis of models hosted through Hugging Face and find over 200 models that introduce (unintended) information leakage between batch entries due to the use of dynamic quantization.

Backdoor Architetturali per il Furto di Dati all'Interno del Batch e la Manipolazione dell'Inferenza del Modello

Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

Abstract

Support