GuardReasoner: 推論ベースのLLMセーフガードに向けてGuardReasoner: Towards Reasoning-based LLM Safeguards
LLM(Large Language Models)が安全性の高いアプリケーションに与える影響がますます大きくなる中、ガードレールを使用してその安全性を確保することは重要な課題です。本論文では、LLM向けの新しい保護手段であるGuardReasonerを提案します。これは、ガードモデルが推論を学習するように導くことで実現されます。具体的には、まず、127,000のサンプルと460,000の詳細な推論ステップからなるGuardReasonerTrainデータセットを作成します。次に、ガードモデルの推論能力を引き出すために推論SFTを導入します。さらに、推論能力をさらに強化するために、ハードサンプルDPOを提案します。この方法により、GuardReasonerはより優れた性能、説明可能性、および汎化性を実現します。3つのガードレールタスクの13のベンチマークでの包括的な実験と分析により、その優位性が示されます。特筆すべきは、GuardReasoner 8Bが平均でGPT-4o+CoTを5.74%、LLaMA Guard 3 8Bを20.84%のF1スコアで上回ることです。GuardReasonerのトレーニングデータ、コード、および異なるスケール(1B、3B、8B)のモデルは、以下のリンクから入手可能です:https://github.com/yueliu1999/GuardReasoner/。