ChatPaper.aiChatPaper

Дикие команды в масштабе: от взломов "на воле" до (адверсативно) безопасных языковых моделей

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

June 26, 2024
Авторы: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI

Аннотация

Мы представляем WildTeaming, автоматическую систему безопасности LLM, которая анализирует взаимодействия пользователей с чат-ботами в реальном мире для обнаружения 5,7 тыс. уникальных кластеров новых тактик для обхода защиты, а затем создает несколько тактик для систематического исследования новых методов обхода защиты. По сравнению с предыдущими работами, где анализ безопасности выполнялся с помощью нанятых сотрудников, оптимизации на основе градиентов или итеративной корректировки с LLM, наша работа исследует методы обхода защиты среди пользователей чат-ботов, которым не было специально указано нарушать систему. WildTeaming раскрывает ранее неидентифицированные уязвимости передовых LLM, что приводит к увеличению до 4,6 раз разнообразия и успешности атак по сравнению с передовыми методами обхода защиты. Хотя существует множество наборов данных для оценки обхода защиты, очень мало открытых наборов данных существует для обучения обходу защиты, поскольку данные для обучения безопасности были закрыты, даже когда веса модели были открыты. С помощью WildTeaming мы создаем WildJailbreak, масштабный открытый синтетический набор данных безопасности с 262 тыс. пар прямых запросов (vanilla) и адверсарных (сложные обходы защиты). Для смягчения преувеличенных безопасных действий WildJailbreak предоставляет два контрастных типа запросов: 1) вредоносные запросы (vanilla и адверсарные) и 2) добросовестные запросы, которые напоминают вредоносные запросы по форме, но не содержат вреда. Поскольку WildJailbreak значительно повышает качество и масштаб существующих ресурсов безопасности, это уникально позволяет нам изучить эффекты масштабирования данных и взаимодействие свойств данных и возможностей модели во время обучения безопасности. Через обширные эксперименты мы определяем свойства обучения, которые обеспечивают идеальный баланс безопасных действий: соответствующее обеспечение без излишнего отказа, эффективную обработку прямых и адверсарных запросов и минимальное, если вообще, снижение общих возможностей. Все компоненты WildJailbreak способствуют достижению сбалансированных безопасных действий моделей.
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models.

Summary

AI-Generated Summary

PDF91November 29, 2024