Stable-GFlowNet: Hin zu vielfältigem und robustem LLM-Red-Teaming durch kontrastive Trajektorienbalance
Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance
May 1, 2026
Autoren: Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim
cs.AI
Zusammenfassung
Large Language Model (LLM) Red-Teaming, das proaktiv Schwachstellen von LLMs identifiziert, ist ein wesentlicher Prozess zur Gewährleistung von Sicherheit. Die Suche nach effektiven und vielfältigen Angriffen im Red-Teaming ist wichtig, aber die gleichzeitige Erreichung beider Ziele ist eine Herausforderung. Generative Flow Networks (GFNs), die eine Verteilungsanpassung durchführen, sind vielversprechende Methoden, aber sie sind berüchtigt für Trainingsinstabilität und Modus-Zusammenbruch. Insbesondere instabile Belohnungen im Red-Teaming beschleunigen den Modus-Zusammenbruch. Wir schlagen Stable-GFN (S-GFN) vor, das die Schätzung der Partitionierungsfunktion Z in GFN eliminiert und die Trainingsinstabilität verringert. S-GFN vermeidet die Z-Schätzung durch paarweise Vergleiche und setzt eine robuste Maskierungsmethodik gegen verrauschte Belohnungen ein. Zusätzlich schlagen wir einen Flüssigkeits-Stabilisator vor, um zu verhindern, dass das Modus in lokalen Optima stecken bleibt, die unsinnige Ausgaben produzieren. S-GFN ermöglicht ein stabileres Training bei Beibehaltung der Optimalpolitik des GFN. Wir demonstrieren die überragende Angriffsleistung und Vielfalt von S-GFN in verschiedenen Szenarien.
English
Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function Z estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.