ChatPaper.aiChatPaper

TriPlay-RL: Alineación de Seguridad de LLM mediante Aprendizaje por Refuerzo de Autojuego con Tres Roles

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

January 26, 2026
Autores: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI

Resumen

En los últimos años, los riesgos de seguridad asociados con los grandes modelos de lenguaje se han vuelto cada vez más prominentes, destacando la necesidad urgente de mitigar la generación de contenido tóxico y dañino. El paradigma predominante para la alineación de seguridad en LLM generalmente adopta un marco colaborativo que involucra tres roles: un atacante para la generación de indicaciones adversarias, un defensor para la protección de seguridad y un evaluador para la valoración de respuestas. En este artículo, proponemos un marco de aprendizaje por refuerzo de ciclo cerrado denominado TriPlay-RL que permite una colaboración iterativa y de mejora conjunta entre los tres roles con anotación manual casi nula. Los resultados experimentales muestran que el atacante preserva una alta diversidad de salida mientras logra una mejora del 20%-50% en efectividad adversarial; el defensor obtiene ganancias del 10%-30% en rendimiento de seguridad sin degradar la capacidad de razonamiento general; y el evaluador refina continuamente su capacidad de juicio granular mediante iteraciones, distinguiendo con precisión respuestas inseguras, rechazos simples y orientaciones útiles. En conjunto, nuestro marco establece un paradigma eficiente y escalable para la alineación de seguridad en LLM, permitiendo una co-evolución continua dentro de un bucle de aprendizaje unificado.
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
PDF92January 29, 2026