GuardReasoner: Rumo a Salvaguardas de LLM Baseadas em RaciocínioGuardReasoner: Towards Reasoning-based LLM Safeguards
À medida que os LLMs impactam cada vez mais aplicações críticas de segurança, garantir sua segurança por meio de trilhos de proteção continua sendo um desafio fundamental. Este artigo propõe o GuardReasoner, um novo mecanismo de proteção para LLMs, orientando o modelo de proteção a aprender a raciocinar. Concretamente, primeiro criamos o conjunto de dados GuardReasonerTrain, que consiste em 127 mil amostras com 460 mil etapas detalhadas de raciocínio. Em seguida, introduzimos a SFT de raciocínio para desbloquear a capacidade de raciocínio dos modelos de proteção. Além disso, apresentamos o DPO de amostra difícil para fortalecer ainda mais sua capacidade de raciocínio. Dessa forma, o GuardReasoner alcança melhor desempenho, explicabilidade e generalização. Experimentos extensivos e análises em 13 benchmarks de 3 tarefas de trilhos de proteção demonstram sua superioridade. Notavelmente, o GuardReasoner 8B supera o GPT-4o+CoT em 5,74% e o LLaMA Guard 3 8B em 20,84% no escore F1 em média. Disponibilizamos os dados de treinamento, código e modelos com diferentes escalas (1B, 3B, 8B) do GuardReasoner em: https://github.com/yueliu1999/GuardReasoner/.