TRIDENT: Повышение безопасности крупных языковых моделей с помощью трехмерного синтеза диверсифицированных данных для тестирования на уязвимости

Аннотация

Крупные языковые модели (LLM) демонстрируют высокие результаты в различных задачах обработки естественного языка, однако остаются уязвимыми к генерации вредоносного контента или использованию в злонамеренных целях. Хотя для снижения таких рисков были введены наборы данных для обеспечения безопасности через контролируемую тонкую настройку (SFT), эти наборы данных часто не обеспечивают всестороннего охвата рисков. Большинство существующих наборов данных сосредоточены в основном на лексическом разнообразии, пренебрегая другими критически важными аспектами. Для устранения этого ограничения мы предлагаем новый аналитический фреймворк, позволяющий систематически измерять охват рисков в наборах данных для обеспечения безопасности по трем ключевым измерениям: лексическое разнообразие, злонамеренные намерения и тактики обхода ограничений (jailbreak). Мы также представляем TRIDENT — автоматизированный конвейер, который использует генерацию на основе персонажей с нулевым обучением (zero-shot) для создания разнообразных и всеобъемлющих инструкций, охватывающих эти измерения. Каждая вредоносная инструкция сопровождается этически выровненным ответом, что приводит к формированию двух наборов данных: TRIDENT-Core, содержащего 26 311 примеров, и TRIDENT-Edge, включающего 18 773 примера. Тонкая настройка модели Llama 3.1-8B на TRIDENT-Edge демонстрирует значительные улучшения, достигая в среднем снижения показателя Harm Score на 14,29% и уменьшения уровня успешности атак (Attack Success Rate) на 20% по сравнению с наилучшей базовой моделью, настроенной на наборе данных WildBreak.

English

Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.

TRIDENT: Повышение безопасности крупных языковых моделей с помощью трехмерного синтеза диверсифицированных данных для тестирования на уязвимости

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Аннотация

Support