ProtegoFed : Réglage d'Instruction Fédéré Sans Porte Dérobée avec des Données Empoisonnées Entrelacées
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data
February 28, 2026
Auteurs: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI
Résumé
Le réglage fédéré d'instructions (FIT) permet un réglage collaboratif d'instructions des grands modèles de linguistiques entre plusieurs organisations (clients) dans un contexte inter-organisations sans nécessiter le partage d'instructions privées. Les découvertes récentes sur les portes dérobées naturelles et la méthode existante de collecte de données d'entraînement suggèrent que des échantillons empoisonnés pourraient être omniprésents et intégrés par inadvertance dans des ensembles de données réels, potentiellement répartis entre tous les clients, même si ces derniers sont bénins. Ce travail examine systématiquement cette menace dans le FIT, démontrant que les défenses existantes sont inefficaces lorsque les données empoisonnées sont dispersées parmi tous les clients. Relever ce défi implique deux difficultés majeures : identifier les caractéristiques distinctives des échantillons empoisonnés chez chaque client et permettre une défense collaborative lorsque certains clients sont fortement dominés par des échantillons empoisonnés. Pour résoudre ces difficultés, nous identifions les gradients dans le domaine fréquentiel comme un signal robuste pour distinguer les données empoisonnées. Nous proposons en outre un mécanisme global de clustering secondaire qui facilite l'identification collaborative des échantillons empoisonnés entre les clients. En résumé, cet article présente ProtegoFed, le premier framework FIT sans porte dérobée qui détecte, supprime et même purifie avec précision les données empoisonnées dispersées entre les clients pendant l'entraînement. Les résultats expérimentaux sur quatre ensembles de données d'apprentissage fédéré montrent que ProtegoFed identifie 92,00% à 100,00% des échantillons empoisonnés, réduit le taux de réussite des attaques à presque zéro et préserve l'utilité sur la tâche principale. Le code est disponible à l'adresse https://github.com/dongdongzhaoUP/ProtegoFed.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.