ChatPaper.aiChatPaper

Stable-GFlowNet: К разнообразию и надежности редкостного тестирования больших языковых моделей с помощью контрастного баланса траекторий

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

May 1, 2026
Авторы: Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim
cs.AI

Аннотация

Тестирование на устойчивость больших языковых моделей (LLM Red-Teaming), которое проактивно выявляет уязвимости LLM, является важным процессом для обеспечения безопасности. Поиск эффективных и разнообразных атак в рамках red-teaming важен, но достижение обеих целей одновременно является сложной задачей. Генеративные потоковые сети (GFN), выполняющие сопоставление распределений, представляются перспективным методом, однако они печально известны нестабильностью обучения и коллапсом мод. В частности, нестабильные вознаграждения в red-teaming ускоряют коллапс мод. Мы предлагаем Stable-GFN (S-GFN), который устраняет необходимость оценки нормировочной константы Z в GFN и снижает нестабильность обучения. S-GFN избегает оценки Z посредством парных сравнений и использует robust-методологию маскирования по отношению к зашумленным вознаграждениям. Кроме того, мы предлагаем стабилизатор беглости, чтобы предотвратить застревание модели в локальных оптимумах, порождающих бессмыслицу. S-GFN обеспечивает более стабильное обучение, сохраняя при этом оптимальную политику GFN. Мы демонстрируем превосходную производительность атак и разнообразие S-GFN в различных условиях.
English
Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function Z estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.
PDF101May 5, 2026