Hintertürangriffe auf dezentrales Post-Training

Zusammenfassung

Die dezentrale Nachschulung großer Sprachmodelle nutzt Daten- und Pipeline-Parallelisierungstechniken, um die Daten und das Modell aufzuteilen. Leider kann die dezentrale Nachschulung anfällig für Poisoning- und Backdoor-Angriffe durch einen oder mehrere böswillige Teilnehmer sein. Es gab mehrere Arbeiten zu Angriffen und Verteidigungsmaßnahmen gegen dezentrale Datenparallelisierung oder Föderiertes Lernen. Die bestehenden Arbeiten zur Robustheit von Pipeline-Parallelisierung beschränken sich jedoch auf Poisoning-Angriffe. Nach unserem Wissen stellt dieses Papier den ersten Backdoor-Angriff auf Pipeline-Parallelisierung vor, der darauf abzielt, das trainierte Modell fehlauszurichten. In unserem Setup kontrolliert der Angreifer eine Zwischenstufe der Pipeline und nicht das gesamte Modell oder den Datensatz, was bestehende Angriffe wie Data Poisoning unanwendbar macht. Unsere experimentellen Ergebnisse zeigen, dass selbst ein solch eingeschränkter Angreifer die Backdoor einfügen und während der Nachschulung eine Fehlausrichtung des Modells verursachen kann, unabhängig von der gelernten Domäne oder dem Datensatz. Durch unseren Angriff sinkt der Ausrichtungsprozentsatz durch die Einbeutung des Triggerworts von 80 % auf 6 %. Wir testen weiterhin die Robustheit unseres Angriffs, indem wir Safety-Alignment-Training auf dem Endmodell anwenden, und zeigen, dass unser Backdoor-Angriff in 60 % der Fälle dennoch erfolgreich ist.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Hintertürangriffe auf dezentrales Post-Training

Backdoor Attacks on Decentralised Post-Training

Zusammenfassung

Support