ChatPaper.aiChatPaper

TriPlay-RL: Трехролевое самоигровое обучение с подкреплением для обеспечения безопасности больших языковых моделей

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

January 26, 2026
Авторы: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun
cs.AI

Аннотация

В последние годы риски безопасности, связанные с большими языковыми моделями, становятся все более значительными, что подчеркивает настоятельную необходимость снижения генерации токсичного и вредоносного контента. Основная парадигма обеспечения безопасности языковых моделей обычно использует совместную структуру, включающую три роли: атакующий для генерации адверсарных промптов, защитник для обеспечения безопасности и оценщик для анализа ответов. В данной статье мы предлагаем фреймворк замкнутого цикла обучения с подкреплением под названием TriPlay-RL, который обеспечивает итеративное и совместное улучшение взаимодействия между тремя ролями при практически нулевой ручной разметке. Результаты экспериментов показывают, что атакующий сохраняет высокое разнообразие выходных данных при одновременном улучшении адверсарной эффективности на 20–50%; защитник достигает повышения показателей безопасности на 10–30% без ухудшения общих способностей к рассуждению; а оценщик непрерывно совершенствует свои способности к детализированному анализу через итерации, точно различая небезопасные ответы, простые отказы и полезные рекомендации. В целом, наш фреймворк устанавливает эффективную и масштабируемую парадигму для обеспечения безопасности языковых моделей, позволяя осуществлять непрерывную совместную эволюцию в рамках единого цикла обучения.
English
In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
PDF92January 29, 2026