ProtegoFed: Защищенная от бэкдоров федеративная настройка инструкций с перемежающимися отравленными данными
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data
February 28, 2026
Авторы: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI
Аннотация
Федеративная настройка по инструкциям (FIT) позволяет совместно настраивать большие языковые модели по инструкциям в условиях кросс-изолированной среды с участием нескольких организаций (клиентов) без необходимости обмена приватными инструкциями. Недавние исследования о естественных бэкдорах и существующий метод сбора обучающих данных указывают на то, что отравленные образцы могут быть повсеместно и непреднамеренно внедрены в реальные наборы данных, потенциально распределенные среди всех клиентов, даже если клиенты добросовестны. В данной работе систематически исследуется эта угроза в контексте FIT, демонстрируя, что существующие методы защиты неэффективны, когда отравленные данные рассредоточены среди всех клиентов. Решение этой проблемы сопряжено с двумя основными трудностями: выявлением отличительных характеристик отравленных образцов у каждого клиента и обеспечением совместной защиты в условиях, когда некоторые клиенты сильно насыщены отравленными образцами. Для преодоления этих трудностей мы определяем градиенты в частотной области как надежный сигнал для распознавания отравленных данных. Кроме того, мы предлагаем механизм глобальной вторичной кластеризации, который способствует совместному выявлению отравленных образцов между клиентами. В итоге, данная статья представляет ProtegoFed — первую свободную от бэкдоров framework FIT, которая точно обнаруживает, удаляет и даже очищает рассредоточенные отравленные данные между клиентами в процессе обучения. Результаты экспериментов на четырех наборах данных FL показывают, что ProtegoFed идентифицирует от 92,00% до 100,00% отравленных образцов, снижает успешность атаки почти до нуля и сохраняет полезность модели для основной задачи. Код доступен по адресу https://github.com/dongdongzhaoUP/ProtegoFed.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.