TriPlay-RL: Drie-rol Zelfspel Versterkingsleren voor Veiligheidsafstemming van Grote Taalmodellen

Samenvatting

De afgelopen jaren zijn veiligheidsrisico's in verband met grote taalmodellen steeds prominenter geworden, wat de dringende noodzaak benadrukt om de generatie van giftige en schadelijke inhoud te beperken. Het mainstream paradigma voor veiligheidsafstemming van LLM's hanteert typisch een collaboratief kader met drie rollen: een aanvaller voor het genereren van adversariële prompts, een verdediger voor veiligheidsdefensie, en een beoordelaar voor respons-evaluatie. In dit artikel stellen we een gesloten reinforcement learning-kader voor, genaamd TriPlay-RL, dat iteratieve en gezamenlijk verbeterende samenwerking tussen deze drie rollen mogelijk maakt met bijna geen handmatige annotatie. Experimentele resultaten tonen aan dat de aanvaller een hoge outputdiversiteit behoudt en tegelijkertijd een verbetering van 20%-50% in adversariële effectiviteit bereikt; de verdediger behaalt een winst van 10%-30% in veiligheidsprestaties zonder afbreuk te doen aan het algemeen redeneervermogen; en de beoordelaar verfijnt continu zijn fijnmazige beoordelingsvermogen door iteraties, waarbij hij onveilige reacties, eenvoudige weigeringen en nuttige begeleiding nauwkeurig onderscheidt. Over het geheel genomen vestigt ons kader een efficiënt en schaalbaar paradigma voor LLM-veiligheidsafstemming, dat continue co-evolutie binnen een verenigde leerlus mogelijk maakt.

English

In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.

TriPlay-RL: Drie-rol Zelfspel Versterkingsleren voor Veiligheidsafstemming van Grote Taalmodellen

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Samenvatting

Support