ChatPaper.aiChatPaper

ProtegoFed: 중간 삽입된 악성 데이터를 활용한 백도어 없는 연합 명령어 튜닝

ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data

February 28, 2026
저자: Haodong Zhao, Jinming Hu, Zhaomin Wu, Zongru Wu, Wei Du, Junyi Hou, Caibei Zhao, Zhuosheng Zhang, Bingsheng He, Gongshen Liu
cs.AI

초록

연합 명령어 튜닝(FIT)은 개인 지시어 공유 없이 크로스 실로(cross-silo) 환경에서 여러 기관(클라이언트)이 대규모 언어 모델의 협력적 명령어 튜닝을 가능하게 합니다. 자연적 백도어에 대한 최근 연구 결과와 기존 훈련 데이터 수집 방법은 악성 샘플이 실제 데이터셋에 광범위하게 그리고 의도치 않게 내재되어 있으며, 클라이언트가 악의적이지 않더라도 모든 클라이언트에 분산되어 있을 수 있음을 시사합니다. 본 연구는 FIT에서 이러한 위협을 체계적으로 분석하며, 악성 데이터가 모든 클라이언트에 흩어져 있을 때 기존 방어 기법이 효과적이지 않음을 입증합니다. 이 문제를 해결하기 위해서는 각 클라이언트에서 악성 샘플의 독특한 특성을 식별하는 것과, 일부 클라이언트가 악성 샘플에 크게 지배될 경우 협력적 방어를 가능하게 하는 것, 이 두 가지 주요 어려움을 해결해야 합니다. 이러한 어려움을 해결하기 위해 우리는 악성 데이터를 구분하는 강력한 신호로 주파수 영역에서의 기울기(gradient)를 식별합니다. 또한 클라이언트 간 악성 샘플의 협력적 식별을 용이하게 하는 전역 이차 클러스터링 메커니즘을 제안합니다. 요약하자면, 본 논문은 훈련 과정 중 클라이언트 전반에 흩어진 악성 데이터를 정확하게 탐지, 제거 및 심지어 정화하는 최초의 백도어 방지 FIT 프레임워크인 ProtegoFed를 소개합니다. 4개의 FL 데이터셋에 대한 실험 결과는 ProtegoFed가 악성 샘플의 92.00% ~ 100.00%를 식별하고, 공격 성공률을 거의 0%로 감소시키며, 주 작업에 대한 유용성을 유지함을 보여줍니다. 코드는 https://github.com/dongdongzhaoUP/ProtegoFed에서 확인할 수 있습니다.
English
Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.
PDF11March 4, 2026