Почему защищенные корабли садятся на мель? Механизмы безопасности выровненных больших языковых моделей склонны закрепляться в шаблонной области
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region
February 19, 2025
Авторы: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
cs.AI
Аннотация
Безопасность крупных языковых моделей (LLM) остается уязвимой, так как их начальное поведение может быть легко нарушено даже относительно простыми атаками. Поскольку заполнение фиксированного шаблона между входной инструкцией и начальным выводом модели является распространенной практикой для существующих LLM, мы предполагаем, что этот шаблон является ключевым фактором их уязвимостей: принятие решений, связанных с безопасностью, в LLM чрезмерно зависит от агрегированной информации из области шаблона, что существенно влияет на безопасное поведение этих моделей. Мы называем эту проблему "безопасностью, закрепленной за шаблоном". В данной статье мы проводим обширные эксперименты и подтверждаем, что безопасность, закрепленная за шаблоном, широко распространена среди различных выровненных LLM. Наши механистические анализы демонстрируют, как это приводит к уязвимости моделей при столкновении с атаками на этапе вывода. Кроме того, мы показываем, что отделение механизмов безопасности от области шаблона является перспективным подходом для снижения уязвимости к атакам. Мы призываем будущие исследования разрабатывать более надежные методы обеспечения безопасности, которые уменьшают зависимость от области шаблона.
English
The safety alignment of large language models (LLMs) remains vulnerable, as
their initial behavior can be easily jailbroken by even relatively simple
attacks. Since infilling a fixed template between the input instruction and
initial model output is a common practice for existing LLMs, we hypothesize
that this template is a key factor behind their vulnerabilities: LLMs'
safety-related decision-making overly relies on the aggregated information from
the template region, which largely influences these models' safety behavior. We
refer to this issue as template-anchored safety alignment. In this paper, we
conduct extensive experiments and verify that template-anchored safety
alignment is widespread across various aligned LLMs. Our mechanistic analyses
demonstrate how it leads to models' susceptibility when encountering
inference-time jailbreak attacks. Furthermore, we show that detaching safety
mechanisms from the template region is promising in mitigating vulnerabilities
to jailbreak attacks. We encourage future research to develop more robust
safety alignment techniques that reduce reliance on the template region.Summary
AI-Generated Summary