ProtegoFed: Ajuste de Instrucción Federado Libre de Puertas Traseras con Datos Envenenados Intercalados
ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data
February 28, 2026
Autores: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI
Resumen
El Ajuste Federado de Instrucciones (FIT) permite el ajuste colaborativo de instrucciones de modelos de lenguaje grandes entre múltiples organizaciones (clientes) en un entorno de silos cruzados sin requerir el intercambio de instrucciones privadas. Hallazgos recientes sobre puertas traseras naturales y el método existente de recolección de datos de entrenamiento sugieren que las muestras envenenadas pueden ser omnipresentes e incrustarse inadvertidamente en conjuntos de datos del mundo real, distribuyéndose potencialmente entre todos los clientes, incluso si estos son benignos. Este trabajo examina sistemáticamente esta amenaza en FIT, demostrando que las defensas existentes son ineficaces cuando los datos envenenados están intercalados entre todos los clientes. Abordar este desafío conlleva dos dificultades principales: identificar las características distintivas de las muestras envenenadas en cada cliente y permitir una defensa colaborativa cuando algunos clientes están fuertemente dominados por muestras envenenadas. Para abordar estas dificultades, identificamos los gradientes en el dominio de la frecuencia como una señal robusta para distinguir datos envenenados. Además, proponemos un mecanismo global de agrupación secundaria que facilita la identificación colaborativa de muestras envenenadas entre clientes. En resumen, este artículo presenta ProtegoFed, el primer marco FIT libre de puertas traseras que detecta, elimina e incluso purifica con precisión datos envenenados intercalados entre clientes durante el entrenamiento. Los resultados experimentales en cuatro conjuntos de datos de FL muestran que ProtegoFed identifica entre el 92.00% y el 100.00% de las muestras envenenadas, reduce la tasa de éxito del ataque a casi cero y mantiene la utilidad en la tarea principal. El código está disponible en https://github.com/dongdongzhaoUP/ProtegoFed.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.