ProtegoFed: Ajuste Fino Federado Livre de Backdoors com Dados Envenenados Intercalados
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data
February 28, 2026
Autores: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI
Resumo
O Ajuste Federado de Instruções (FIT) permite o ajuste colaborativo de instruções em modelos de linguagem grandes entre várias organizações (clientes) em um ambiente de silos cruzados, sem exigir o compartilhamento de instruções privadas. Descobertas recentes sobre *backdoors* naturais e o método existente de coleta de dados de treinamento sugerem que amostras envenenadas podem ser generalizadas e inadvertidamente incorporadas em conjuntos de dados do mundo real, potencialmente distribuídas por todos os clientes, mesmo que estes sejam benignos. Este trabalho examina sistematicamente essa ameaça no FIT, demonstrando que as defesas existentes são ineficazes quando os dados envenenados estão intercalados entre todos os clientes. Abordar esse desafio envolve duas grandes dificuldades: identificar as características distintivas das amostras envenenadas em cada cliente e permitir uma defesa colaborativa quando alguns clientes são fortemente dominados por amostras envenenadas. Para resolver essas dificuldades, identificamos gradientes no domínio da frequência como um sinal robusto para distinguir dados envenenados. Propomos ainda um mecanismo global de agrupamento secundário que facilita a identificação colaborativa de amostras envenenadas entre os clientes. Em resumo, este artigo introduz o ProtegoFed, o primeiro framework FIT livre de *backdoors* que detecta, remove e até purifica com precisão dados envenenados intercalados entre os clientes durante o treinamento. Resultados experimentais em quatro conjuntos de dados de FL mostram que o ProtegoFed identifica entre 92,00% e 100,00% das amostras envenenadas, reduz a taxa de sucesso do ataque para quase zero e mantém a utilidade na tarefa principal. O código está disponível em https://github.com/dongdongzhaoUP/ProtegoFed.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.