GuardReasoner : Vers des Garde-fous LLM basés sur le RaisonnementGuardReasoner: Towards Reasoning-based LLM Safeguards
À mesure que les LLMs ont un impact croissant sur les applications critiques en termes de sécurité, garantir leur sûreté à l'aide de garde-corps reste un défi majeur. Cet article propose GuardReasoner, un nouveau dispositif de sécurité pour les LLMs, en guidant le modèle de garde à apprendre à raisonner. Concrètement, nous créons d'abord l'ensemble de données d'entraînement GuardReasonerTrain, qui comprend 127 000 échantillons avec 460 000 étapes de raisonnement détaillées. Ensuite, nous introduisons le SFT de raisonnement pour libérer la capacité de raisonnement des modèles de garde. De plus, nous présentons DPO d'échantillon difficile pour renforcer davantage leur capacité de raisonnement. De cette manière, GuardReasoner obtient de meilleures performances, une meilleure explicabilité et une meilleure généralisabilité. Des expériences approfondies et des analyses sur 13 référentiels de 3 tâches de garde-corps démontrent sa supériorité. Remarquablement, GuardReasoner 8B surpasse GPT-4o+CoT de 5,74 % et LLaMA Guard 3 8B de 20,84 % en score F1 en moyenne. Nous mettons à disposition les données d'entraînement, le code et les modèles avec différentes échelles (1B, 3B, 8B) de GuardReasoner : https://github.com/yueliu1999/GuardReasoner/.