ChatPaper.aiChatPaper

TriPlay-RL: Tri-Rollen-Self-Play-Verstärkungslernen für die Sicherheitsausrichtung von LLMs

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

January 26, 2026
papers.authors: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI

papers.abstract

In den letzten Jahren sind Sicherheitsrisiken im Zusammenhang mit großen Sprachmodellen zunehmend in den Vordergrund gerückt, was den dringenden Bedarf unterstreicht, die Erzeugung toxischer und schädlicher Inhalte zu reduzieren. Das vorherrschende Paradigma für die Sicherheitsanpassung von LLMs basiert typischerweise auf einem kollaborativen Framework mit drei Rollen: einem Angreifer zur Generierung adverser Prompts, einem Verteidiger für die Sicherheitsabwehr und einem Bewerter zur Beurteilung der Antworten. In diesem Artikel stellen wir ein Closed-Loop-Reinforcement-Learning-Framework namens TriPlay-RL vor, das eine iterative und sich gegenseitig verbessernde Zusammenarbeit zwischen diesen drei Rollen mit nahezu null manueller Annotation ermöglicht. Experimentelle Ergebnisse zeigen, dass der Angreifer bei hoher Ausgabevielfalt eine 20%-50%ige Steigerung der adversen Effektivität erzielt; der Verteidiger verbessert die Sicherheitsleistung um 10%-30%, ohne die allgemeine Reasoning-Fähigkeit zu beeinträchtigen; und der Bewerter verfeinert kontinuierlich seine differenzierte Urteilsfähigkeit durch Iterationen und unterscheidet präzise zwischen unsicheren Antworten, einfachen Verweigerungen und nützlichen Hilfestellungen. Insgesamt etabliert unser Framework ein effizientes und skalierbares Paradigma für die LLM-Sicherheitsanpassung, das eine kontinuierliche Ko-Evolution innerhalb eines einheitlichen Lernkreislaufs ermöglicht.
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
PDF92January 29, 2026