Stable-GFlowNet：対照的軌道バランスによる多様でロバストなLLMレッドチーミングの実現を目指して

要旨

大規模言語モデル（LLM）に対するレッドチーミングは、LLMの脆弱性を能動的に特定する重要なプロセスであり、安全性を確保する上で不可欠である。レッドチーミングにおいて効果的かつ多様な攻撃を見つけることは重要だが、両方を同時に達成することは困難である。分布マッチングを行う生成的フローネットワーク（GFN）は有望な手法であるが、学習の不安定性とモード崩壊が課題として知られている。特に、レッドチーミングにおける不安定な報酬はモード崩壊を加速させる。本研究では、GFNにおける分配関数Zの推定を排除し、学習の不安定性を低減するStable-GFN（S-GFN）を提案する。S-GFNはペアワイズ比較を通じてZ推定を回避し、ノイズの多い報酬に対してロバストなマスキング手法を採用する。さらに、無意味な文を生成する局所最適解にモデルが陥るのを防ぐための流暢性安定化機構を提案する。S-GFNはGFNの最適方策を維持しつつ、より安定した学習を実現する。様々な設定において、S-GFNが圧倒的な攻撃性能と多様性を発揮することを実証する。

English

Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function Z estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.

Stable-GFlowNet：対照的軌道バランスによる多様でロバストなLLMレッドチーミングの実現を目指して

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

要旨

Support