ChatPaper.aiChatPaper

大規模なWildTeaming:実環境でのJailbreakから(敵対的により)安全な言語モデルへ

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

June 26, 2024
著者: Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri
cs.AI

要旨

私たちはWildTeamingを紹介します。これは、実世界のユーザーとチャットボットのインタラクションをマイニングして5,700のユニークなクラスターの新しいジェイルブレイク戦術を発見し、複数の戦術を組み合わせて新しいジェイルブレイクを体系的に探索する自動LLMセキュリティレッドチーミングフレームワークです。従来の研究では、募集した人間の作業者、勾配ベースの最適化、またはLLMを用いた反復的な修正を通じてレッドチーミングを行っていましたが、私たちの研究は、システムを破るように特に指示されていないチャットボットユーザーからのジェイルブレイクを調査します。WildTeamingは、最先端のLLMのこれまで特定されていなかった脆弱性を明らかにし、最新のジェイルブレイク手法と比較して最大4.6倍の多様性と成功率を持つ敵対的攻撃を実現します。 ジェイルブレイク評価のための多くのデータセットが存在する一方で、ジェイルブレイクトレーニングのためのオープンソースのデータセットは非常に少なく、モデルの重みが公開されている場合でもセキュリティトレーニングデータは非公開となっています。WildTeamingでは、262Kのバニラ(直接的なリクエスト)と敵対的(複雑なジェイルブレイク)なプロンプト-レスポンスペアを含む大規模なオープンソースの合成セキュリティデータセットであるWildJailbreakを作成します。過剰なセキュリティ行動を緩和するために、WildJailbreakは2つの対照的なタイプのクエリを提供します:1)有害なクエリ(バニラ&敵対的)と2)有害なクエリに似た形式を持つが害のない良性クエリです。WildJailbreakは既存のセキュリティリソースの品質と規模を大幅に向上させるため、データのスケーリング効果やセキュリティトレーニング中のデータ特性とモデル能力の相互作用を検証することを可能にします。広範な実験を通じて、適切な保護と過剰な拒否のない理想的なセキュリティ行動のバランスを実現するトレーニング特性を特定しました:バニラと敵対的クエリの効果的な処理、一般的な能力の最小限の低下(もしあれば)です。WildJailbreakのすべてのコンポーネントが、モデルのバランスの取れたセキュリティ行動の実現に貢献します。
English
We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models.

Summary

AI-Generated Summary

PDF91November 29, 2024