ChatPaper.aiChatPaper

TRIDENT: 삼차원 다양화된 레드팀 데이터 합성을 통한 대형 언어 모델 안전성 강화

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

May 30, 2025
저자: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
cs.AI

초록

대형 언어 모델(LLMs)은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, 유해한 콘텐츠를 생성하거나 악의적인 목적으로 악용될 가능성이 여전히 존재합니다. 이러한 위험을 완화하기 위해 지도 미세 조정(SFT)을 통해 안전성 정렬 데이터셋이 도입되었지만, 이러한 데이터셋은 종종 포괄적인 위험 범위를 제공하지 못합니다. 대부분의 기존 데이터셋은 주로 어휘 다양성에 초점을 맞추는 반면, 다른 중요한 차원을 간과하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 세 가지 필수 차원(어휘 다양성, 악의적 의도, 탈옥 전술)에 걸쳐 정렬 데이터셋의 위험 범위를 체계적으로 측정하기 위한 새로운 분석 프레임워크를 제안합니다. 또한, 우리는 TRIDENT라는 자동화된 파이프라인을 소개합니다. 이 파이프라인은 페르소나 기반의 제로샷 LLM 생성을 활용하여 이러한 차원에 걸쳐 다양하고 포괄적인 지침을 생성합니다. 각 유해 지침은 윤리적으로 정렬된 응답과 짝을 이루며, 그 결과 TRIDENT-Core(26,311개의 예제)와 TRIDENT-Edge(18,773개의 예제)라는 두 가지 데이터셋이 생성됩니다. TRIDENT-Edge를 사용하여 Llama 3.1-8B를 미세 조정한 결과, WildBreak 데이터셋으로 미세 조정된 최고 성능의 베이스라인 모델과 비교하여 평균 14.29%의 Harm Score 감소와 20%의 공격 성공률 감소를 달성함으로써 상당한 개선을 보였습니다.
English
Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.
PDF32June 3, 2025