ProtegoFed: Addestramento Federato su Istruzioni Immune da Backdoor con Dati Avvelenati Intervallati
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data
February 28, 2026
Autori: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI
Abstract
La Federated Instruction Tuning (FIT) consente la messa a punto collaborativa delle istruzioni per grandi modelli linguistici tra più organizzazioni (client) in un contesto cross-silo, senza richiedere la condivisione di istruzioni private. Recenti scoperte sui backdoor naturali e il metodo esistente di raccolta dei dati di addestramento suggeriscono che campioni avvelenati possano essere pervasivi e incorporati inavvertitamente in dataset del mondo reale, potenzialmente distribuiti su tutti i client, anche se questi sono benigni. Questo lavoro esamina sistematicamente questa minaccia nella FIT, dimostrando che le difese esistenti sono inefficaci quando i dati avvelenati sono sparsi tra tutti i client. Affrontare questa sfida comporta due difficoltà principali: identificare le caratteristiche distintive dei campioni avvelenati presso ogni client e abilitare una difesa collaborativa quando alcuni client sono fortemente dominati da campioni avvelenati. Per affrontare queste difficoltà, identifichiamo i gradienti nel dominio della frequenza come un segnale robusto per distinguere i dati avvelenati. Proponiamo inoltre un meccanismo globale di clustering secondario che facilita l'identificazione collaborativa dei campioni avvelenati tra i client. In sintesi, questo articolo introduce ProtegoFed, il primo framework FIT privo di backdoor che rileva, rimuove e persino purifica accuratamente i dati avvelenati sparsi tra i client durante l'addestramento. I risultati sperimentali su quattro dataset di FL mostrano che ProtegoFed identifica dal 92,00% al 100,00% dei campioni avvelenati, riduce il tasso di successo dell'attacco a quasi zero e mantiene l'utilità sul compito principale. Il codice è disponibile all'indirizzo https://github.com/dongdongzhaoUP/ProtegoFed.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.