Attacchi Backdoor nell'Addestramento Post-Decentrato

Abstract

L'addestramento post-allenamento decentralizzato di grandi modelli linguistici utilizza tecniche di parallelismo dei dati e della pipeline per suddividere sia i dati che il modello. Sfortunatamente, l'addestramento post-allenamento decentralizzato può essere vulnerabile ad attacchi di avvelenamento e backdoor da parte di uno o più partecipanti malevoli. Esistono diversi lavori sugli attacchi e le difese contro il parallelismo dei dati decentralizzato o l'apprendimento federato. Tuttavia, i lavori esistenti sulla robustezza del parallelismo di pipeline si limitano agli attacchi di avvelenamento. Per quanto a nostra conoscenza, questo articolo presenta il primo attacco backdoor sul parallelismo di pipeline, progettato per disallineare il modello addestrato. Nel nostro setup, l'avversario controlla uno stadio intermedio della pipeline anziché l'intero modello o il dataset, rendendo inapplicabili gli attacchi esistenti, come l'avvelenamento dei dati. I nostri risultati sperimentali mostrano che anche un avversario con un controllo così limitato può iniettare il backdoor e causare il disallineamento del modello durante l'addestramento post-allenamento, indipendentemente dal dominio o dal dataset appreso. Con il nostro attacco, l'inclusione della parola trigger riduce la percentuale di allineamento dall'80% al 6%. Testiamo ulteriormente la robustezza del nostro attacco applicando un addestramento di sicurezza sull'allineamento finale del modello, e dimostriamo che il nostro attacco backdoor riesce ancora nel 60% dei casi.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Attacchi Backdoor nell'Addestramento Post-Decentrato

Backdoor Attacks on Decentralised Post-Training

Abstract

Support