TRIDENT: Miglioramento della Sicurezza dei Modelli Linguistici di Grande Scala attraverso la Sintesi di Dati di Red-Teaming Tri-Dimensionali Diversificati

Abstract

I Large Language Model (LLM) eccellono in vari compiti di elaborazione del linguaggio naturale, ma rimangono vulnerabili alla generazione di contenuti dannosi o all'essere sfruttati per scopi malevoli. Sebbene siano stati introdotti dataset di allineamento alla sicurezza per mitigare tali rischi attraverso il fine-tuning supervisionato (SFT), questi dataset spesso mancano di una copertura completa dei rischi. La maggior parte dei dataset esistenti si concentra principalmente sulla diversità lessicale, trascurando altre dimensioni critiche. Per affrontare questa limitazione, proponiamo un nuovo framework di analisi per misurare sistematicamente la copertura dei rischi nei dataset di allineamento attraverso tre dimensioni essenziali: Diversità Lessicale, Intento Maligno e Tattiche di Jailbreak. Introduciamo inoltre TRIDENT, una pipeline automatizzata che sfrutta la generazione zero-shot basata su persona da parte di LLM per produrre istruzioni diversificate e complete che coprono queste dimensioni. Ogni istruzione dannosa è abbinata a una risposta eticamente allineata, risultando in due dataset: TRIDENT-Core, composto da 26.311 esempi, e TRIDENT-Edge, con 18.773 esempi. Il fine-tuning di Llama 3.1-8B su TRIDENT-Edge dimostra miglioramenti significativi, con una riduzione media del 14,29% nel punteggio di danno e una diminuzione del 20% nel tasso di successo degli attacchi rispetto al modello di riferimento più performante addestrato sul dataset WildBreak.

English

Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.

TRIDENT: Miglioramento della Sicurezza dei Modelli Linguistici di Grande Scala attraverso la Sintesi di Dati di Red-Teaming Tri-Dimensionali Diversificati

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Abstract

Support