Vers un raisonnement de sécurité dans les LLM : délibération agentique en IA pour la création de données CoT intégrées aux politiques

papers.abstract

Le raisonnement de sécurité est un paradigme récent où les modèles de langage (LLMs) raisonnent sur des politiques de sécurité avant de générer des réponses, atténuant ainsi les limites des mesures de sécurité existantes telles que le refus excessif et les vulnérabilités de contournement. Cependant, la mise en œuvre de ce paradigme est complexe en raison du processus coûteux en ressources pour créer des ensembles de données de chaînes de pensée (CoT) intégrant des politiques de haute qualité, tout en garantissant que le raisonnement reste précis et exempt d'hallucinations ou de conflits de politiques. Pour relever ce défi, nous proposons AIDSAFE : Agentic Iterative Deliberation for Safety Reasoning, une nouvelle méthode de génération de données qui exploite la délibération multi-agent pour développer itérativement le raisonnement sur les politiques de sécurité. Une étape de raffinement des données dans AIDSAFE assure des résultats de haute qualité en éliminant les pensées répétitives, redondantes et trompeuses. Les CoT générés par AIDSAFE fournissent une base solide pour l'apprentissage supervisé (SFT) axé sur la sécurité. De plus, pour répondre au besoin de données de préférence dans les étapes d'alignement, comme l'entraînement DPO, nous introduisons une méthode supplémentaire qui utilise l'augmentation des croyances pour créer des échantillons distincts de CoT sélectionnés et rejetés. Nos évaluations démontrent que les CoT générés par AIDSAFE atteignent une adhésion supérieure aux politiques et une qualité de raisonnement élevée. Par conséquent, nous montrons que l'affinement des LLMs open-source sur ces CoT peut significativement améliorer la généralisation de la sécurité et la robustesse aux contournements, tout en maintenant une utilité acceptable et une précision dans le refus excessif. Les ensembles de données CoT générés par AIDSAFE sont disponibles ici : https://huggingface.co/datasets/AmazonScience/AIDSAFE.

English

Safety reasoning is a recent paradigm where LLMs reason over safety policies before generating responses, thereby mitigating limitations in existing safety measures such as over-refusal and jailbreak vulnerabilities. However, implementing this paradigm is challenging due to the resource-intensive process of creating high-quality policy-embedded chain-of-thought (CoT) datasets while ensuring reasoning remains accurate and free from hallucinations or policy conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning, a novel data generation recipe that leverages multi-agent deliberation to iteratively expand reasoning on safety policies. A data refiner stage in AIDSAFE ensures high-quality outputs by eliminating repetitive, redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong foundation for supervised fine-tuning (SFT)-based safety training. Additionally, to address the need of preference data in alignment stages, such as DPO training, we introduce a supplemental recipe that uses belief augmentation to create distinct selected and rejected CoT samples. Our evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy adherence and reasoning quality. Consequently, we show that fine-tuning open-source LLMs on these CoTs can significantly improve safety generalization and jailbreak robustness while maintaining acceptable utility and over-refusal accuracy. AIDSAFE-generated CoT datasets can be found here: https://huggingface.co/datasets/AmazonScience/AIDSAFE

Vers un raisonnement de sécurité dans les LLM : délibération agentique en IA pour la création de données CoT intégrées aux politiques

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

papers.abstract

Support