ChatPaper.aiChatPaper

TriPlay-RL: 대규모 언어 모델 안전성 정렬을 위한 삼중 역할 자가 대결 강화 학습

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

January 26, 2026
저자: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI

초록

최근 몇 년간 대규모 언어 모델과 관련된 안전 위험이 점차 두드러지면서 유해하고 위험한 콘텐츠 생성을 완화해야 할 필요성이 시급히 부각되고 있습니다. LLM 안전성 정렬의 주류 패러다임은 일반적으로 공격자(적대적 프롬프트 생성), 방어자(안전성 방어), 평가자(응답 평가)라는 세 가지 역할이 협력하는 프레임워크를 채택합니다. 본 논문에서는 세 역할 간의 반복적이고 상호 향상되는 협력을 거의 제로에 가까운 수동 주석 작업으로 가능하게 하는 TriPlay-RL이라는 폐쇄형 강화 학습 프레임워크를 제안합니다. 실험 결과, 공격자는 적대적 효율성에서 20%~50% 향상을 달성하면서도 높은 출력 다양성을 유지했으며, 방어자는 일반적인 추론 능력의 저하 없이 안전성 성능에서 10%~30% 이득을 얻었습니다. 또한 평가자는 반복을 통해 세분화된 판단 능력을 지속적으로 개선하여 안전하지 않은 응답, 단순한 거절, 유용한 지침을 정확히 구분했습니다. 전반적으로, 본 프레임워크는 통합된 학습 루프 내에서 지속적인 공동 진화를 가능하게 하는 효율적이고 확장 가능한 LLM 안전성 정렬 패러다임을 구축합니다.
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
PDF92January 29, 2026