Бэкдор-атаки на децентрализованное пост-обучение

Аннотация

Децентрализованное пост-обучение больших языковых моделей использует методы параллелизма данных и конвейерной обработки для разделения данных и модели. К сожалению, децентрализованное пост-обучение может быть уязвимо к атакам отравления и внедрения бэкдоров со стороны одного или нескольких злоумышленников. Существует ряд работ, посвященных атакам и защите в условиях децентрализованного параллелизма данных или федеративного обучения. Однако существующие исследования устойчивости конвейерного параллелизма ограничиваются атаками отравления. Насколько нам известно, данная статья представляет первую атаку типа бэкдор на конвейерный параллелизм, предназначенную для нарушения согласованности обученной модели. В нашей схеме противник контролирует промежуточный этап конвейера, а не всю модель или набор данных, что делает неприменимыми существующие атаки, такие как отравление данных. Наши экспериментальные результаты показывают, что даже такой ограниченный противник может внедрить бэкдор и вызвать нарушение согласованности модели в процессе пост-обучения, независимо от изучаемой предметной области или набора данных. В результате нашей атаки использование триггерного слова снижает процент согласованности с 80% до 6%. Мы дополнительно проверяем устойчивость нашей атаки, применяя обучение безопасности к конечной модели, и демонстрируем, что наша бэкдор-атака все равно оказывается успешной в 60% случаев.

English

Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from 80% to 6%. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in 60% of cases.

Бэкдор-атаки на децентрализованное пост-обучение

Backdoor Attacks on Decentralised Post-Training

Аннотация

Support