Attaques par Porte Dérobée sur l'Optimisation Décentralisée Post-Entraînement

Résumé

L’apprentissage post-formation décentralisé des grands modèles de langage utilise des techniques de parallélisme des données et de pipeline pour répartir les données et le modèle. Malheureusement, cette approche décentralisée peut être vulnérable aux attaques par empoisonnement et par porte dérobée menées par un ou plusieurs participants malveillants. Plusieurs travaux ont porté sur les attaques et les défenses dans le cadre du parallélisme de données décentralisé ou de l’apprentissage fédéré. Cependant, les études existantes sur la robustesse du parallélisme de pipeline se limitent aux attaques par empoisonnement. À notre connaissance, cet article présente la première attaque par porte dérobée ciblant le parallélisme de pipeline, conçue pour désaligner le modèle entraîné. Dans notre configuration, l’adversaire contrôle un stade intermédiaire du pipeline plutôt que l’ensemble du modèle ou des données, rendant les attaques existantes, telles que l’empoisonnement de données, inapplicables. Nos résultats expérimentaux montrent qu’un adversaire même aussi limité peut injecter la porte dérobée et provoquer un désalignement du modèle lors de la post-formation, indépendamment du domaine ou des données appris. Avec notre attaque, l’inclusion du mot déclencheur réduit le taux d’alignement de 80 % à 6 %. Nous testons également la robustesse de notre attaque en appliquant un réalignement de sécurité sur le modèle final, et démontrons que notre attaque par porte dérobée réussit encore dans 60 % des cas.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Attaques par Porte Dérobée sur l'Optimisation Décentralisée Post-Entraînement

Backdoor Attacks on Decentralised Post-Training

Résumé

Support