Stable-GFlowNet: Hacia un Red-Teaming de LLM Diverso y Robusto mediante Equilibrio de Trayectorias Contrastivo

Resumen

El Red-Teaming de Modelos de Lenguaje Grandes (LLM), que identifica proactivamente las vulnerabilidades de los LLM, es un proceso esencial para garantizar la seguridad. Encontrar ataques efectivos y diversos en el red-teaming es importante, pero lograr ambas cosas es un desafío. Las Redes de Flujo Generativo (GFN), que realizan una coincidencia de distribuciones, son métodos prometedores, pero son notorios por su inestabilidad en el entrenamiento y el colapso modal. En particular, las recompensas inestables en el red-teaming aceleran el colapso modal. Proponemos Stable-GFN (S-GFN), que elimina la estimación de la función de partición Z en GFN y reduce la inestabilidad del entrenamiento. S-GFN evita la estimación de Z mediante comparaciones por pares y emplea una metodología de enmascaramiento robusta contra recompensas ruidosas. Adicionalmente, proponemos un estabilizador de fluidez para evitar que el modelo se estanque en óptimos locales que producen sinsentidos. S-GFN proporciona un entrenamiento más estable manteniendo la política óptima de GFN. Demostramos el rendimiento de ataque abrumador y la diversidad de S-GFN en diversos entornos.

English

Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function Z estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.

Stable-GFlowNet: Hacia un Red-Teaming de LLM Diverso y Robusto mediante Equilibrio de Trayectorias Contrastivo

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

Resumen

Support