TRIDENT: Miglioramento della Sicurezza dei Modelli Linguistici di Grande Scala attraverso la Sintesi di Dati di Red-Teaming Tri-Dimensionali Diversificati
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
May 30, 2025
Autori: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
cs.AI
Abstract
I Large Language Model (LLM) eccellono in vari compiti di elaborazione del linguaggio naturale, ma rimangono vulnerabili alla generazione di contenuti dannosi o all'essere sfruttati per scopi malevoli. Sebbene siano stati introdotti dataset di allineamento alla sicurezza per mitigare tali rischi attraverso il fine-tuning supervisionato (SFT), questi dataset spesso mancano di una copertura completa dei rischi. La maggior parte dei dataset esistenti si concentra principalmente sulla diversità lessicale, trascurando altre dimensioni critiche. Per affrontare questa limitazione, proponiamo un nuovo framework di analisi per misurare sistematicamente la copertura dei rischi nei dataset di allineamento attraverso tre dimensioni essenziali: Diversità Lessicale, Intento Maligno e Tattiche di Jailbreak. Introduciamo inoltre TRIDENT, una pipeline automatizzata che sfrutta la generazione zero-shot basata su persona da parte di LLM per produrre istruzioni diversificate e complete che coprono queste dimensioni. Ogni istruzione dannosa è abbinata a una risposta eticamente allineata, risultando in due dataset: TRIDENT-Core, composto da 26.311 esempi, e TRIDENT-Edge, con 18.773 esempi. Il fine-tuning di Llama 3.1-8B su TRIDENT-Edge dimostra miglioramenti significativi, con una riduzione media del 14,29% nel punteggio di danno e una diminuzione del 20% nel tasso di successo degli attacchi rispetto al modello di riferimento più performante addestrato sul dataset WildBreak.
English
Large Language Models (LLMs) excel in various natural language processing
tasks but remain vulnerable to generating harmful content or being exploited
for malicious purposes. Although safety alignment datasets have been introduced
to mitigate such risks through supervised fine-tuning (SFT), these datasets
often lack comprehensive risk coverage. Most existing datasets focus primarily
on lexical diversity while neglecting other critical dimensions. To address
this limitation, we propose a novel analysis framework to systematically
measure the risk coverage of alignment datasets across three essential
dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We
further introduce TRIDENT, an automated pipeline that leverages persona-based,
zero-shot LLM generation to produce diverse and comprehensive instructions
spanning these dimensions. Each harmful instruction is paired with an ethically
aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311
examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on
TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29%
reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to
the best-performing baseline model fine-tuned on the WildBreak dataset.