TriPlay-RL: Alinhamento de Segurança de LLM por meio de Aprendizado por Reforço com Autojogo de Três Papéis

Resumo

Nos últimos anos, os riscos de segurança associados a grandes modelos de linguagem tornaram-se cada vez mais proeminentes, destacando a necessidade urgente de mitigar a geração de conteúdo tóxico e prejudicial. O paradigma dominante para o alinhamento de segurança de LLM geralmente adota uma estrutura colaborativa envolvendo três papéis: um atacante para geração de prompts adversariais, um defensor para proteção de segurança e um avaliador para análise de respostas. Neste artigo, propomos uma estrutura de aprendizado por reforço em circuito fechado chamada TriPlay-RL que permite uma colaboração iterativa e de melhoria conjunta entre os três papéis com anotação manual quase zero. Resultados experimentais mostram que o atacante preserva alta diversidade de saída enquanto alcança uma melhoria de 20%-50% na eficácia adversarial; o defensor obtém ganhos de 10%-30% no desempenho de segurança sem degradar a capacidade de raciocínio geral; e o avaliador refina continuamente sua capacidade de julgamento granular através de iterações, distinguindo com precisão respostas inseguras, recusas simples e orientações úteis. Globalmente, nossa estrutura estabelece um paradigma eficiente e escalável para o alinhamento de segurança de LLM, permitindo uma coevolução contínua dentro de um ciclo de aprendizado unificado.

English

In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.

TriPlay-RL: Alinhamento de Segurança de LLM por meio de Aprendizado por Reforço com Autojogo de Três Papéis

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Resumo

Support