ChatPaper.aiChatPaper

TRIDENT: 三次元多様化レッドチーミングデータ合成による大規模言語モデルの安全性向上

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

May 30, 2025
著者: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
cs.AI

要旨

大規模言語モデル(LLMs)は、さまざまな自然言語処理タスクにおいて優れた性能を発揮するが、有害なコンテンツの生成や悪意のある目的での利用に対して脆弱性を残している。このようなリスクを軽減するために、教師あり微調整(SFT)を通じて安全性を向上させるためのデータセットが導入されているが、これらのデータセットはしばしば包括的なリスクカバレッジを欠いている。既存のデータセットの多くは、主に語彙の多様性に焦点を当てており、他の重要な次元を無視している。この制約に対処するため、我々は、語彙の多様性、悪意のある意図、およびジェイルブレイク戦略という3つの重要な次元にわたって、アライメントデータセットのリスクカバレッジを体系的に測定するための新しい分析フレームワークを提案する。さらに、これらの次元にわたる多様で包括的な指示を生成するために、ペルソナベースのゼロショットLLM生成を活用した自動化パイプラインであるTRIDENTを導入する。各有害な指示は、倫理的に整合した応答とペアになっており、26,311の例を含むTRIDENT-Coreと18,773の例を含むTRIDENT-Edgeという2つのデータセットが作成された。TRIDENT-EdgeでLlama 3.1-8Bを微調整した結果、WildBreakデータセットで微調整された最高性能のベースラインモデルと比較して、平均14.29%のHarm Scoreの削減と20%の攻撃成功率の低下が達成された。
English
Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.
PDF32June 3, 2025