GuardReasoner: К защите на основе рассуждений для LLM.GuardReasoner: Towards Reasoning-based LLM Safeguards
Поскольку LLM все чаще используются в приложениях, связанных с безопасностью, обеспечение их безопасности с помощью ограждений остается ключевой проблемой. В данной статье предлагается GuardReasoner, новый защитный механизм для LLM, направленный на обучение модели ограждения рассуждать. Конкретно, мы сначала создаем набор данных GuardReasonerTrain, состоящий из 127 тыс. образцов с 460 тыс. подробных шагов рассуждения. Затем мы представляем SFT рассуждения для разблокировки способности моделей ограждения к рассуждению. Кроме того, мы представляем сложные образцы DPO для дальнейшего укрепления их способности к рассуждению. Таким образом, GuardReasoner достигает лучшей производительности, объяснимости и обобщаемости. Обширные эксперименты и анализы на 13 бенчмарках 3 задач ограждения демонстрируют его превосходство. Заметно, что GuardReasoner 8B превосходит GPT-4o+CoT на 5.74% и LLaMA Guard 3 8B на 20.84% по среднему показателю F1. Мы предоставляем данные для обучения, код и модели различных масштабов (1B, 3B, 8B) GuardReasoner: https://github.com/yueliu1999/GuardReasoner/.