ProtegoFed: Hintertürfreies föderiertes Instruction Tuning mit eingestreuten vergifteten Daten

Zusammenfassung

Federated Instruction Tuning (FIT) ermöglicht das kollaborative Instruction Tuning großer Sprachmodelle über mehrere Organisationen (Clients) hinweg in einer Cross-Silo-Umgebung, ohne dass private Instruktionen geteilt werden müssen. Jüngste Erkenntnisse zu natürlichen Backdoors und die gängige Methode zur Sammlung von Trainingsdaten legen nahe, dass vergiftete Stichproben weit verbreitet und unbeabsichtigt in realen Datensätzen eingebettet sein können, die potenziell auf alle Clients verteilt sind, selbst wenn die Clients vertrauenswürdig sind. Diese Arbeit untersucht diese Bedrohung in FIT systematisch und zeigt, dass bestehende Abwehrmaßnahmen unwirksam sind, wenn vergiftete Daten auf alle Clients verteilt sind. Die Bewältigung dieser Herausforderung birgt zwei Hauptschwierigkeiten: die Identifizierung der charakteristischen Merkmale vergifteter Stichproben bei jedem Client und die Ermöglichung einer kollaborativen Abwehr, wenn einige Clients stark von vergifteten Stichproben dominiert werden. Um diese Schwierigkeiten zu bewältigen, identifizieren wir Gradienten im Frequenzbereich als robustes Signal zur Unterscheidung vergifteter Daten. Wir schlagen weiterhin einen globalen Sekundär-Clustering-Mechanismus vor, der die kollaborative Identifizierung vergifteter Stichproben über Clients hinweg erleichtert. Zusammenfassend stellt diese Arbeit ProtegoFed vor, das erste Backdoor-freie FIT-Framework, das verteilte vergiftete Daten während des Trainings genau erkennt, entfernt und sogar bereinigt. Experimentelle Ergebnisse auf vier FL-Datensätzen zeigen, dass ProtegoFed 92,00 % bis 100,00 % der vergifteten Stichproben identifiziert, die Angriffserfolgsrate auf nahezu Null reduziert und die Nutzbarkeit für die Hauptaufgabe beibehält. Code ist verfügbar unter https://github.com/dongdongzhaoUP/ProtegoFed.

English

Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies 92.00% sim 100.00% of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.

ProtegoFed: Hintertürfreies föderiertes Instruction Tuning mit eingestreuten vergifteten Daten

ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data

Zusammenfassung

Support