ChatPaper.aiChatPaper

TriPlay-RL:大規模言語モデルの安全性アライメントのための三役セルフプレイ強化学習

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

January 26, 2026
著者: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI

要旨

近年、大規模言語モデルに伴う安全性リスクが顕在化し、有害コンテンツの生成を抑制する必要性が緊急の課題となっている。LLM安全性アライメントの主流パラダイムは通常、敵対的プロンプト生成を行う攻撃役、安全防御を行う防御役、応答評価を行う評価役の3役割が連携する枠組みを採用している。本論文では、TriPlay-RLと名付けた閉ループ強化学習フレームワークを提案する。これは3役割間の反復的かつ共進化的な協調を可能とし、手動アノテーションをほぼゼロに抑えている。実験結果では、攻撃役は敵対的有效性を20%-50%向上させながら高い出力多様性を維持し、防御役は一般的な推論能力を劣化させることなく安全性性能を10%-30%向上させ、評価役は反復を通じて細粒度の判断能力を継続的に洗練し、不安全な応答・単純な拒否・有用な指示応答を精度よく識別できることが示された。全体として、本フレームワークは統一的な学習ループ内での継続的共進化を実現し、LLM安全性アライメントの効率的かつスケーラブルなパラダイムを確立するものである。
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
PDF92January 29, 2026