TriPlay-RL: Apprendimento per Rinforzo con Auto-Gioco a Tre Ruoli per l'Allineamento alla Sicurezza degli LLM

Abstract

Negli ultimi anni, i rischi per la sicurezza associati ai grandi modelli linguistici sono diventati sempre più rilevanti, evidenziando l'urgente necessità di mitigare la generazione di contenuti tossici e dannosi. Il paradigma principale per l'allineamento alla sicurezza degli LLM adotta tipicamente una struttura collaborativa che coinvolge tre ruoli: un attaccante per la generazione di prompt avversariali, un difensore per la sicurezza e un valutatore per la valutazione delle risposte. In questo articolo, proponiamo una struttura di apprendimento per rinforzo a ciclo chiuso denominata TriPlay-RL, che consente una collaborazione iterativa e di miglioramento reciproco tra i tre ruoli con un'annotazione manuale quasi nulla. I risultati sperimentali mostrano che l'attaccante preserva un'elevata diversità di output ottenendo al contempo un miglioramento del 20%-50% nell'efficacia avversariale; il difensore raggiunge un incremento del 10%-30% nelle prestazioni di sicurezza senza degradare le capacità di ragionamento generale; e il valutatore affina continuamente la sua capacità di giudizio granulare attraverso le iterazioni, distinguendo accuratamente tra risposte non sicure, rifiuti semplici e indicazioni utili. Nel complesso, la nostra struttura stabilisce un paradigma efficiente e scalabile per l'allineamento alla sicurezza degli LLM, consentendo una continua co-evoluzione all'interno di un ciclo di apprendimento unificato.

English

In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.

TriPlay-RL: Apprendimento per Rinforzo con Auto-Gioco a Tre Ruoli per l'Allineamento alla Sicurezza degli LLM

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Abstract

Support