TRIDENT: Повышение безопасности крупных языковых моделей с помощью трехмерного синтеза диверсифицированных данных для тестирования на уязвимости
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
May 30, 2025
Авторы: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокие результаты в различных задачах обработки естественного языка, однако остаются уязвимыми к генерации вредоносного контента или использованию в злонамеренных целях. Хотя для снижения таких рисков были введены наборы данных для обеспечения безопасности через контролируемую тонкую настройку (SFT), эти наборы данных часто не обеспечивают всестороннего охвата рисков. Большинство существующих наборов данных сосредоточены в основном на лексическом разнообразии, пренебрегая другими критически важными аспектами. Для устранения этого ограничения мы предлагаем новый аналитический фреймворк, позволяющий систематически измерять охват рисков в наборах данных для обеспечения безопасности по трем ключевым измерениям: лексическое разнообразие, злонамеренные намерения и тактики обхода ограничений (jailbreak). Мы также представляем TRIDENT — автоматизированный конвейер, который использует генерацию на основе персонажей с нулевым обучением (zero-shot) для создания разнообразных и всеобъемлющих инструкций, охватывающих эти измерения. Каждая вредоносная инструкция сопровождается этически выровненным ответом, что приводит к формированию двух наборов данных: TRIDENT-Core, содержащего 26 311 примеров, и TRIDENT-Edge, включающего 18 773 примера. Тонкая настройка модели Llama 3.1-8B на TRIDENT-Edge демонстрирует значительные улучшения, достигая в среднем снижения показателя Harm Score на 14,29% и уменьшения уровня успешности атак (Attack Success Rate) на 20% по сравнению с наилучшей базовой моделью, настроенной на наборе данных WildBreak.
English
Large Language Models (LLMs) excel in various natural language processing
tasks but remain vulnerable to generating harmful content or being exploited
for malicious purposes. Although safety alignment datasets have been introduced
to mitigate such risks through supervised fine-tuning (SFT), these datasets
often lack comprehensive risk coverage. Most existing datasets focus primarily
on lexical diversity while neglecting other critical dimensions. To address
this limitation, we propose a novel analysis framework to systematically
measure the risk coverage of alignment datasets across three essential
dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We
further introduce TRIDENT, an automated pipeline that leverages persona-based,
zero-shot LLM generation to produce diverse and comprehensive instructions
spanning these dimensions. Each harmful instruction is paired with an ethically
aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311
examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on
TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29%
reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to
the best-performing baseline model fine-tuned on the WildBreak dataset.