GuardReasoner: Auf dem Weg zu LLM-Schutzmechanismen auf Grundlage von Schlussfolgerungen.GuardReasoner: Towards Reasoning-based LLM Safeguards
Da LLMs zunehmend sicherheitskritische Anwendungen beeinflussen, bleibt die Gewährleistung ihrer Sicherheit mithilfe von Leitplanken eine zentrale Herausforderung. Dieses Papier schlägt GuardReasoner vor, eine neue Sicherheitsvorkehrung für LLMs, indem das Leitplankenmodell angeleitet wird, das Denken zu erlernen. Konkret erstellen wir zunächst den GuardReasonerTrain Datensatz, der aus 127.000 Beispielen mit 460.000 detaillierten Denkschritten besteht. Anschließend führen wir das Denk-SFT ein, um die Denkfähigkeit der Leitplankenmodelle freizuschalten. Darüber hinaus präsentieren wir das schwierige Beispiel DPO, um ihre Denkfähigkeit weiter zu stärken. Auf diese Weise erzielt GuardReasoner bessere Leistung, Erklärbarkeit und Verallgemeinerungsfähigkeit. Umfangreiche Experimente und Analysen an 13 Benchmarks von 3 Leitplankenaufgaben zeigen seine Überlegenheit. Bemerkenswert übertrifft GuardReasoner 8B GPT-4o+CoT um 5,74% und LLaMA Guard 3 8B um 20,84% F1-Score im Durchschnitt. Wir veröffentlichen die Trainingsdaten, den Code und die Modelle mit verschiedenen Skalen (1B, 3B, 8B) von GuardReasoner unter: https://github.com/yueliu1999/GuardReasoner/.