Ataques de Puerta Trasera en la Descentralización del Post-entrenamiento

Resumen

El entrenamiento posterior descentralizado de modelos de lenguaje a gran escala utiliza técnicas de paralelismo de datos y de pipeline para dividir los datos y el modelo. Lamentablemente, este entrenamiento posterior descentralizado puede ser vulnerable a ataques de envenenamiento y de puertas traseras por parte de uno o más participantes maliciosos. Existen varios trabajos sobre ataques y defensas contra el paralelismo de datos descentralizado o el aprendizaje federado. Sin embargo, los trabajos existentes sobre la robustez del paralelismo de pipeline se limitan a ataques de envenenamiento. Hasta donde sabemos, este artículo presenta el primer ataque de puerta trasera sobre el paralelismo de pipeline, diseñado para desalinear el modelo entrenado. En nuestra configuración, el adversario controla una etapa intermedia del pipeline, en lugar de todo el modelo o el conjunto de datos, lo que hace que ataques existentes, como el envenenamiento de datos, no sean aplicables. Nuestros resultados experimentales muestran que incluso un adversario con un control tan limitado puede inyectar la puerta trasera y causar una desalineación del modelo durante el entrenamiento posterior, independientemente del dominio o conjunto de datos aprendido. Con nuestro ataque, la inclusión de la palabra desencadenante reduce el porcentaje de alineación del 80% al 6%. Además, probamos la robustez de nuestro ataque aplicando un entrenamiento de alineación de seguridad en el modelo final, y demostramos que nuestro ataque de puerta trasera aún tiene éxito en el 60% de los casos.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Ataques de Puerta Trasera en la Descentralización del Post-entrenamiento

Backdoor Attacks on Decentralised Post-Training

Resumen

Support