Achterdeuraanvallen op Gedecentraliseerde Post-Training

Samenvatting

Gedecentraliseerde naf-training van grote taalmodel(len) maakt gebruik van gegevens- en pijplijnparallellisme-technieken om de gegevens en het model te verdelen. Helaas kan gedecentraliseerde naf-training kwetsbaar zijn voor vergiftigings- en backdooraanvallen door een of meer kwaadwillende deelnemers. Er zijn verschillende werken verschenen over aanvallen en verdedigingen tegen gedecentraliseerd gegevensparallellisme of federatief leren. Bestaande onderzoeken naar de robuustheid van pijplijnparallellisme zijn echter beperkt tot vergiftigingsaanvallen. Voor zover wij weten, presenteert dit artikel de eerste backdooraanval op pijplijnparallellisme, die is ontworpen om het getrainde model te misaligneren. In onze opzet beheerst de tegenstander een tussenliggende fase van de pijplijn in plaats van het gehele model of de dataset, waardoor bestaande aanvallen, zoals gegevensvergiftiging, niet toepasbaar zijn. Onze experimentele resultaten tonen aan dat zelfs een dergelijke beperkte tegenstander de backdoor kan injecteren en misalignering van het model kan veroorzaken tijdens de naf-training, onafhankelijk van het geleerde domein of de dataset. Met onze aanval daalt het aligneringspercentage door de invoeging van het triggerwoord van 80% naar 6%. We testen de robuustheid van onze aanval verder door safety-alignmenttraining op het uiteindelijke model toe te passen, en tonen aan dat onze backdooraanval in 60% van de gevallen nog steeds slaagt.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Achterdeuraanvallen op Gedecentraliseerde Post-Training

Backdoor Attacks on Decentralised Post-Training

Samenvatting

Support