Ataques de Backdoor na Descentralização Pós-Treinamento

Resumo

O pós-treinamento descentralizado de grandes modelos de linguagem utiliza técnicas de paralelismo de dados e de pipeline para dividir os dados e o modelo. Infelizmente, o pós-treinamento descentralizado pode ser vulnerável a ataques de envenenamento e backdoor por um ou mais participantes maliciosos. Vários trabalhos abordam ataques e defesas contra o paralelismo de dados descentralizado ou a aprendizagem federada. No entanto, os trabalhos existentes sobre a robustez do paralelismo de pipeline limitam-se a ataques de envenenamento. Tanto quanto sabemos, este artigo apresenta o primeiro ataque backdoor ao paralelismo de pipeline, concebido para desalinhar o modelo treinado. Na nossa configuração, o adversário controla um estágio intermédio do pipeline em vez de todo o modelo ou do conjunto de dados, tornando ataques existentes, como o envenenamento de dados, inaplicáveis. Os nossos resultados experimentais mostram que mesmo um adversário com limitações destas pode injetar o backdoor e causar o desalinhamento do modelo durante o pós-treinamento, independentemente do domínio ou conjunto de dados aprendido. Com o nosso ataque, a inclusão da palavra-chave (trigger) reduz a percentagem de alinhamento de 80% para 6%. Testámos ainda a robustez do nosso ataque aplicando um treino de alinhamento de segurança (safety alignment) ao modelo final, e demonstramos que o nosso ataque backdoor ainda tem sucesso em 60% dos casos.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Ataques de Backdoor na Descentralização Pós-Treinamento

Backdoor Attacks on Decentralised Post-Training

Resumo

Support