ProtegoFed: Backdoor-Vrije Federated Instruction Tuning met Afgewisselde Vergiftigde Gegevens

Samenvatting

Federated Instruction Tuning (FIT) maakt gezamenlijke instructie-afstemming van grote taalmodellen mogelijk tussen meerdere organisaties (cliënten) in een cross-silo setting, zonder dat privé-instructies gedeeld hoeven te worden. Recente bevindingen over natuurlijke achterdeuren en de bestaande methode voor het verzamelen van trainingsdata suggereren dat vergiftigde samples wijdverspreid kunnen zijn en onbedoeld ingebed kunnen zijn in real-world datasets, mogelijk verdeeld over alle cliënten, zelfs als de cliënten goedaardig zijn. Dit werk onderzoekt deze dreiging systematisch in FIT en toont aan dat bestaande verdedigingen ondoeltreffend zijn wanneer vergiftigde data verspreid zijn over alle cliënten. Het aanpakken van deze uitdaging brengt twee grote moeilijkheden met zich mee: het identificeren van de onderscheidende kenmerken van vergiftigde samples bij elke cliënt, en het mogelijk maken van een gezamenlijke verdediging wanneer sommige cliënten sterk gedomineerd worden door vergiftigde samples. Om deze moeilijkheden het hoofd te bieden, identificeren we gradients in het frequentiedomein als een robuust signaal om vergiftigde data te onderscheiden. We stellen verder een globaal secundair clusteringmechanisme voor dat de gezamenlijke identificatie van vergiftigde samples tussen cliënten vergemakkelijkt. Samenvattend introduceert dit artikel ProtegoFed, het eerste achterdeurvrije FIT-framework dat verspreide vergiftigde data tussen cliënten tijdens de training nauwkeurig detecteert, verwijdert en zelfs zuivert. Experimentele resultaten op vier FL-datasets tonen aan dat ProtegoFed 92.00% tot 100.00% van de vergiftigde samples identificeert, de aanvalssuccesratio reduceert tot bijna nul, en de functionaliteit voor de hoofdtaak behoudt. Code is beschikbaar op https://github.com/dongdongzhaoUP/ProtegoFed.

English

Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.

ProtegoFed: Backdoor-Vrije Federated Instruction Tuning met Afgewisselde Vergiftigde Gegevens

ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data

Samenvatting

Support