Ложное чувство безопасности: небезопасные утечки информации в «безопасном» искусственном интеллекте. Ответы
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Авторы: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Аннотация
Большие языковые модели (LLM) уязвимы для методов взлома, направленных на вызов вредных или в общем недопустимых результатов. Безопасностные меры разрабатываются и оцениваются по их эффективности в защите от атак взлома, что указывает на убеждение в том, что безопасность эквивалентна устойчивости. Мы утверждаем, что текущие механизмы защиты, такие как фильтры вывода и точная настройка выравнивания, фундаментально недостаточны для обеспечения безопасности модели. Эти защиты не уделяют внимание рискам, возникающим из двойных намерений запросов и возможности комбинировать безобидные результаты для достижения вредных целей. Для устранения этого критического пробела мы представляем информационно-теоретическую модель угроз, называемую выводящими адверсарами, которые используют недопустимые утечки информации из результатов модели для достижения злонамеренных целей. Мы различаем их от обычно изучаемых адверсаров безопасности, которые стремятся лишь заставить жертвенные модели генерировать определенные недопустимые результаты. Мы демонстрируем возможность автоматизации выводящих адверсаров через декомпозицию вопросов и агрегацию ответов. Для обеспечения гарантий безопасности мы определяем критерий цензуры информации для механизмов цензуры, ограничивая утечку недопустимой информации. Мы предлагаем механизм защиты, который обеспечивает это ограничение, и раскрываем внутренний компромисс между безопасностью и полезностью. Наша работа предоставляет первое теоретически обоснованное понимание требований к выпуску безопасных LLM и связанные с этим затраты на полезность.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.Summary
AI-Generated Summary