TriPlay-RL : Apprentissage par Renforcement par Auto-Jeu à Triple Rôle pour l'Alignement Sécuritaire des LLM
TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
January 26, 2026
papers.authors: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI
papers.abstract
Ces dernières années, les risques de sécurité associés aux grands modèles de langage sont devenus de plus en plus préoccupants, soulignant le besoin urgent d'atténuer la génération de contenu toxique et nuisible. Le paradigme dominant pour l'alignement sécuritaire des LLM adopte généralement un cadre collaboratif impliquant trois rôles : un attaquant pour la génération d'invites adverses, un défenseur pour la protection sécuritaire et un évaluateur pour l'évaluation des réponses. Dans cet article, nous proposons un cadre d'apprentissage par renforcement en boucle fermée appelé TriPlay-RL, qui permet une collaboration itérative et co-améliorante entre ces trois rôles avec une annotation manuelle quasi nulle. Les résultats expérimentaux montrent que l'attaquant préserve une grande diversité de sorties tout en améliorant de 20 % à 50 % son efficacité adversarial ; le défenseur obtient des gains de 10 % à 30 % en performance sécuritaire sans dégrader sa capacité de raisonnement générale ; et l'évaluateur affine continuellement sa capacité de jugement granulaire à travers les itérations, distinguant précisément les réponses non sécurisées, les refus simples et les conseils utiles. Globalement, notre cadre établit un paradigme efficace et évolutif pour l'alignement sécuritaire des LLM, permettant une co-évolution continue au sein d'une boucle d'apprentissage unifiée.
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.