DuoGuard : Un cadre piloté par l'apprentissage par renforcement à deux joueurs pour les LLM multilingues Garde-fous

papers.abstract

L'avancée rapide des grands modèles de langage (GML) a accru le besoin de modèles de garde-fou pour garantir une utilisation responsable, en particulier pour détecter les contenus dangereux et illégaux. Alors que des données de sécurité substantielles existent en anglais, la modélisation multilingue de garde-fou reste peu explorée en raison de la rareté des données de sécurité open-source dans d'autres langues. Pour combler cette lacune, nous proposons un nouveau cadre d'apprentissage par renforcement (RL) à deux joueurs, où un générateur et un modèle de garde-fou évoluent de manière adversaire pour produire des données synthétiques de haute qualité pour l'entraînement multilingue de garde-fou. Nous formalisons théoriquement cette interaction comme un jeu à deux joueurs, prouvant la convergence vers un équilibre de Nash. Les évaluations empiriques montrent que notre modèle \ours surpasse les modèles de pointe, réalisant une amélioration de près de 10 % par rapport à LlamaGuard3 (8B) sur des référentiels anglais tout en étant 4,5 fois plus rapide en inférence avec un modèle significativement plus petit (0,5B). Nous réalisons des avancées substantielles dans les tâches de sécurité multilingues, en particulier pour résoudre le déséquilibre des langues à ressources limitées dans un ensemble de données réel collecté. Les études d'ablation mettent en avant le rôle crucial de la génération de données synthétiques pour combler le déséquilibre des données open-source entre l'anglais et les autres langues. Ces résultats établissent une approche évolutive et efficace pour la génération de données synthétiques, ouvrant la voie à l'amélioration des modèles de garde-fou multilingues pour renforcer la sécurité des GML. Le code, le modèle et les données seront disponibles en open-source sur https://github.com/yihedeng9/DuoGuard.

English

The rapid advancement of large language models (LLMs) has increased the need for guardrail models to ensure responsible use, particularly in detecting unsafe and illegal content. While substantial safety data exist in English, multilingual guardrail modeling remains underexplored due to the scarcity of open-source safety data in other languages. To address this gap, we propose a novel two-player Reinforcement Learning (RL) framework, where a generator and a guardrail model co-evolve adversarially to produce high-quality synthetic data for multilingual guardrail training. We theoretically formalize this interaction as a two-player game, proving convergence to a Nash equilibrium. Empirical evaluations show that our model \ours outperforms state-of-the-art models, achieving nearly 10% improvement over LlamaGuard3 (8B) on English benchmarks while being 4.5x faster at inference with a significantly smaller model (0.5B). We achieve substantial advancements in multilingual safety tasks, particularly in addressing the imbalance for lower-resource languages in a collected real dataset. Ablation studies emphasize the critical role of synthetic data generation in bridging the imbalance in open-source data between English and other languages. These findings establish a scalable and efficient approach to synthetic data generation, paving the way for improved multilingual guardrail models to enhance LLM safety. Code, model, and data will be open-sourced at https://github.com/yihedeng9/DuoGuard.

DuoGuard : Un cadre piloté par l'apprentissage par renforcement à deux joueurs pour les LLM multilingues Garde-fous

DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

papers.abstract

Support