Пожизненное обеспечение безопасности для языковых моделей
Lifelong Safety Alignment for Language Models
May 26, 2025
Авторы: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли впечатляющих успехов, однако их растущие возможности также делают их уязвимыми для гибких атак, направленных на обход механизмов безопасности. Хотя многие существующие методы защиты сосредоточены на известных типах атак, более важно подготовить LLM к неизвестным атакам, которые могут возникнуть в процессе эксплуатации. Для решения этой проблемы мы предлагаем фреймворк для постоянного обеспечения безопасности, который позволяет LLM непрерывно адаптироваться к новым и развивающимся стратегиям обхода. Наш фреймворк включает соревновательную схему между двумя компонентами: Мета-Атакующим, обученным активно выявлять новые стратегии обхода, и Защитником, обученным противостоять им. Для эффективной инициализации Мета-Атакующего мы сначала используем API GPT-4o для извлечения ключевых идей из большого массива научных статей, связанных с обходом безопасности. В ходе итеративного обучения Мета-Атакующий первой итерации достигает 73% успешности атак (ASR) на RR и 57% переносимой ASR на LAT, используя только одношаговые атаки. В то же время Защитник постепенно повышает свою устойчивость и в конечном итоге снижает успешность Мета-Атакующего до всего 7%, что позволяет более безопасно и надежно использовать LLM в открытых средах. Код доступен по адресу https://github.com/sail-sg/LifelongSafetyAlignment.
English
LLMs have made impressive progress, but their growing capabilities also
expose them to highly flexible jailbreaking attacks designed to bypass safety
alignment. While many existing defenses focus on known types of attacks, it is
more critical to prepare LLMs for unseen attacks that may arise during
deployment. To address this, we propose a lifelong safety alignment framework
that enables LLMs to continuously adapt to new and evolving jailbreaking
strategies. Our framework introduces a competitive setup between two
components: a Meta-Attacker, trained to actively discover novel jailbreaking
strategies, and a Defender, trained to resist them. To effectively warm up the
Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a
large collection of jailbreak-related research papers. Through iterative
training, the first iteration Meta-Attacker achieves a 73% attack success rate
(ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks.
Meanwhile, the Defender progressively improves its robustness and ultimately
reduces the Meta-Attacker's success rate to just 7%, enabling safer and more
reliable deployment of LLMs in open-ended environments. The code is available
at https://github.com/sail-sg/LifelongSafetyAlignment.Summary
AI-Generated Summary