ChatPaper.aiChatPaper

TRIDENT: Mejorando la Seguridad de los Modelos de Lenguaje a Gran Escala con Síntesis de Datos de Red-Teaming Tri-Dimensional Diversificada

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

May 30, 2025
Autores: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en diversas tareas de procesamiento del lenguaje natural, pero siguen siendo vulnerables a la generación de contenido dañino o a ser explotados con fines maliciosos. Aunque se han introducido conjuntos de datos de alineación de seguridad para mitigar estos riesgos mediante ajuste fino supervisado (SFT, por sus siglas en inglés), estos conjuntos de datos a menudo carecen de una cobertura integral de riesgos. La mayoría de los conjuntos de datos existentes se centran principalmente en la diversidad léxica, descuidando otras dimensiones críticas. Para abordar esta limitación, proponemos un marco de análisis novedoso para medir sistemáticamente la cobertura de riesgos de los conjuntos de datos de alineación en tres dimensiones esenciales: Diversidad Léxica, Intención Maliciosa y Tácticas de Jailbreak. Además, presentamos TRIDENT, una canalización automatizada que aprovecha la generación basada en personajes y de cero disparos (zero-shot) de LLMs para producir instrucciones diversas y completas que abarcan estas dimensiones. Cada instrucción dañina se empareja con una respuesta éticamente alineada, lo que resulta en dos conjuntos de datos: TRIDENT-Core, que comprende 26,311 ejemplos, y TRIDENT-Edge, con 18,773 ejemplos. El ajuste fino de Llama 3.1-8B en TRIDENT-Edge demuestra mejoras sustanciales, logrando una reducción promedio del 14.29% en la Puntuación de Daño y una disminución del 20% en la Tasa de Éxito de Ataque en comparación con el modelo de referencia de mejor rendimiento ajustado en el conjunto de datos WildBreak.
English
Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.
PDF32June 3, 2025