Слабый к сильному взлому в крупных языковых моделях
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Авторы: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Аннотация
Несмотря на значительные усилия, направленные на согласование крупных языковых моделей (LLM), отчеты о тестировании на уязвимости (red-teaming) показывают, что эти тщательно согласованные LLM всё ещё могут быть взломаны с помощью адверсарных запросов, настройки или декодирования. Изучая уязвимость согласованных LLM к взлому, мы наблюдаем, что распределения декодирования взломанных и согласованных моделей различаются только в начальных генерациях. Это наблюдение побуждает нас предложить атаку "от слабого к сильному" (weak-to-strong jailbreaking attack), при которой злоумышленники могут использовать меньшие небезопасные/согласованные LLM (например, 7B) для взлома значительно более крупных согласованных LLM (например, 70B). Для взлома достаточно лишь однократно декодировать две меньшие LLM, что требует минимальных вычислительных ресурсов и задержек по сравнению с декодированием более крупных LLM. Эффективность этой атаки демонстрируется в экспериментах, проведенных на пяти моделях от трех различных организаций. Наше исследование выявляет ранее незамеченный, но эффективный способ взлома, что подчеркивает актуальную проблему безопасности, которую необходимо учитывать при согласовании LLM. В качестве первоначальной попытки мы предлагаем стратегию защиты от таких атак, однако разработка более продвинутых методов защиты остается сложной задачей. Код для воспроизведения метода доступен по адресу https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong