Stable-GFlowNet : Vers une mise à l'épreuve des LLM diversifiée et robuste via l'Équilibre des Trajectoires Contrastif

Résumé

Le "Red-Teaming" des modèles de langage de grande taille (LLM), qui identifie de manière proactive leurs vulnérabilités, est un processus essentiel pour garantir leur sécurité. Trouver des attaques efficaces et diversifiées lors du red-teaming est important, mais concilier ces deux objectifs est difficile. Les réseaux de flux génératifs (GFN) qui réalisent un appariement de distribution sont des méthodes prometteuses, mais elles sont réputées pour leur instabilité à l'entraînement et leur effondrement modal. En particulier, les récompenses instables dans le red-teaming accélèrent cet effondrement modal. Nous proposons Stable-GFN (S-GFN), qui élimine l'estimation de la fonction de partition Z dans le GFN et réduit l'instabilité de l'entraînement. S-GFN évite l'estimation de Z par des comparaisons par paires et utilise une méthodologie de masquage robuste contre les récompenses bruitées. De plus, nous proposons un stabilisateur de fluidité pour empêcher le modèle de rester bloqué dans des optima locaux produisant des absurdités. S-GFN offre un entraînement plus stable tout en conservant la politique optimale du GFN. Nous démontrons la performance d'attaque écrasante et la diversité de S-GFN dans divers contextes.

English

Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function Z estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.

Stable-GFlowNet : Vers une mise à l'épreuve des LLM diversifiée et robuste via l'Équilibre des Trajectoires Contrastif

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

Résumé

Support