GuardReasoner:朝向基於推理的LLM保護措施GuardReasoner: Towards Reasoning-based LLM Safeguards
隨著大型語言模型(LLMs)對安全關鍵應用的影響日益增加,利用護欄確保其安全性仍然是一個關鍵挑戰。本文提出了GuardReasoner,一種新的LLMs保護機制,通過引導護欄模型學習推理。具體而言,我們首先創建了GuardReasonerTrain數據集,其中包含127K個樣本,460K個詳細的推理步驟。然後,我們引入推理SFT以發揮護欄模型的推理能力。此外,我們提出了困難樣本DPO以進一步加強其推理能力。通過這種方式,GuardReasoner實現了更好的性能、可解釋性和泛化能力。對3個護欄任務的13個基準進行了廣泛的實驗和分析,證明了其優越性。值得注意的是,GuardReasoner 8B在平均F1分數上超越了GPT-4o+CoT 5.74%,超過LLaMA Guard 3 8B 20.84%。我們釋出了不同規模(1B、3B、8B)的GuardReasoner的訓練數據、代碼和模型:https://github.com/yueliu1999/GuardReasoner/。