Слияние улучшает самокритику против атак с отключением.
Merging Improves Self-Critique Against Jailbreak Attacks
June 11, 2024
Авторы: Victor Gallego
cs.AI
Аннотация
Устойчивость крупных языковых моделей (LLM) к атакам с целью нарушения безопасности, таким как атаки "выход из тюрьмы", остается значительным вызовом. В данной работе мы предлагаем подход, который улучшает способность самокритики LLM и затем доводит его до совершенства на очищенных синтетических данных. Это достигается добавлением внешней модели-критика, которую можно объединить с оригинальной, тем самым укрепляя способности самокритики и улучшая устойчивость ответа LLM на атакующие запросы. Наши результаты показывают, что комбинация объединения и самокритики может значительно снизить успешность атак со стороны злоумышленников, предлагая тем самым многообещающий механизм защиты от атак "выход из тюрьмы". Код, данные и модели доступны по ссылке https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial
manipulations, such as jailbreak attacks, remains a significant challenge. In
this work, we propose an approach that enhances the self-critique capability of
the LLM and further fine-tunes it over sanitized synthetic data. This is done
with the addition of an external critic model that can be merged with the
original, thus bolstering self-critique capabilities and improving the
robustness of the LLMs response to adversarial prompts. Our results demonstrate
that the combination of merging and self-critique can reduce the attack success
rate of adversaries significantly, thus offering a promising defense mechanism
against jailbreak attacks. Code, data and models released at
https://github.com/vicgalle/merging-self-critique-jailbreaks .Summary
AI-Generated Summary