Vers un raisonnement de sécurité dans les LLM : délibération agentique en IA pour la création de données CoT intégrées aux politiques
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
Auteurs: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
Résumé
Le raisonnement de sécurité est un paradigme récent où les modèles de langage (LLMs) raisonnent sur des politiques de sécurité avant de générer des réponses, atténuant ainsi les limites des mesures de sécurité existantes telles que le refus excessif et les vulnérabilités de contournement. Cependant, la mise en œuvre de ce paradigme est complexe en raison du processus coûteux en ressources pour créer des ensembles de données de chaînes de pensée (CoT) intégrant des politiques de haute qualité, tout en garantissant que le raisonnement reste précis et exempt d'hallucinations ou de conflits de politiques. Pour relever ce défi, nous proposons AIDSAFE : Agentic Iterative Deliberation for Safety Reasoning, une nouvelle méthode de génération de données qui exploite la délibération multi-agent pour développer itérativement le raisonnement sur les politiques de sécurité. Une étape de raffinement des données dans AIDSAFE assure des résultats de haute qualité en éliminant les pensées répétitives, redondantes et trompeuses. Les CoT générés par AIDSAFE fournissent une base solide pour l'apprentissage supervisé (SFT) axé sur la sécurité. De plus, pour répondre au besoin de données de préférence dans les étapes d'alignement, comme l'entraînement DPO, nous introduisons une méthode supplémentaire qui utilise l'augmentation des croyances pour créer des échantillons distincts de CoT sélectionnés et rejetés. Nos évaluations démontrent que les CoT générés par AIDSAFE atteignent une adhésion supérieure aux politiques et une qualité de raisonnement élevée. Par conséquent, nous montrons que l'affinement des LLMs open-source sur ces CoT peut significativement améliorer la généralisation de la sécurité et la robustesse aux contournements, tout en maintenant une utilité acceptable et une précision dans le refus excessif. Les ensembles de données CoT générés par AIDSAFE sont disponibles ici : https://huggingface.co/datasets/AmazonScience/AIDSAFE.
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFESummary
AI-Generated Summary