DuoGuard : Un cadre piloté par l'apprentissage par renforcement à deux joueurs pour les LLM multilingues Garde-fous
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails
February 7, 2025
Auteurs: Yihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li
cs.AI
Résumé
L'avancée rapide des grands modèles de langage (GML) a accru le besoin de modèles de garde-fou pour garantir une utilisation responsable, en particulier pour détecter les contenus dangereux et illégaux. Alors que des données de sécurité substantielles existent en anglais, la modélisation multilingue de garde-fou reste peu explorée en raison de la rareté des données de sécurité open-source dans d'autres langues. Pour combler cette lacune, nous proposons un nouveau cadre d'apprentissage par renforcement (RL) à deux joueurs, où un générateur et un modèle de garde-fou évoluent de manière adversaire pour produire des données synthétiques de haute qualité pour l'entraînement multilingue de garde-fou. Nous formalisons théoriquement cette interaction comme un jeu à deux joueurs, prouvant la convergence vers un équilibre de Nash. Les évaluations empiriques montrent que notre modèle \ours surpasse les modèles de pointe, réalisant une amélioration de près de 10 % par rapport à LlamaGuard3 (8B) sur des référentiels anglais tout en étant 4,5 fois plus rapide en inférence avec un modèle significativement plus petit (0,5B). Nous réalisons des avancées substantielles dans les tâches de sécurité multilingues, en particulier pour résoudre le déséquilibre des langues à ressources limitées dans un ensemble de données réel collecté. Les études d'ablation mettent en avant le rôle crucial de la génération de données synthétiques pour combler le déséquilibre des données open-source entre l'anglais et les autres langues. Ces résultats établissent une approche évolutive et efficace pour la génération de données synthétiques, ouvrant la voie à l'amélioration des modèles de garde-fou multilingues pour renforcer la sécurité des GML. Le code, le modèle et les données seront disponibles en open-source sur https://github.com/yihedeng9/DuoGuard.
English
The rapid advancement of large language models (LLMs) has increased the need
for guardrail models to ensure responsible use, particularly in detecting
unsafe and illegal content. While substantial safety data exist in English,
multilingual guardrail modeling remains underexplored due to the scarcity of
open-source safety data in other languages. To address this gap, we propose a
novel two-player Reinforcement Learning (RL) framework, where a generator and a
guardrail model co-evolve adversarially to produce high-quality synthetic data
for multilingual guardrail training. We theoretically formalize this
interaction as a two-player game, proving convergence to a Nash equilibrium.
Empirical evaluations show that our model \ours outperforms state-of-the-art
models, achieving nearly 10% improvement over LlamaGuard3 (8B) on English
benchmarks while being 4.5x faster at inference with a significantly smaller
model (0.5B). We achieve substantial advancements in multilingual safety tasks,
particularly in addressing the imbalance for lower-resource languages in a
collected real dataset. Ablation studies emphasize the critical role of
synthetic data generation in bridging the imbalance in open-source data between
English and other languages. These findings establish a scalable and efficient
approach to synthetic data generation, paving the way for improved multilingual
guardrail models to enhance LLM safety. Code, model, and data will be
open-sourced at https://github.com/yihedeng9/DuoGuard.Summary
AI-Generated Summary