Verso il Ragionamento sulla Sicurezza nei LLM: Deliberazione Agente-AI per la Creazione di Dati CoT Integrati nelle Politiche

Abstract

Il ragionamento sulla sicurezza è un paradigma recente in cui i modelli linguistici di grandi dimensioni (LLM) ragionano sulle politiche di sicurezza prima di generare risposte, mitigando così le limitazioni delle misure di sicurezza esistenti, come il rifiuto eccessivo e le vulnerabilità di jailbreak. Tuttavia, implementare questo paradigma è impegnativo a causa del processo ad alta intensità di risorse necessario per creare dataset di catena di pensiero (CoT) di alta qualità con politiche integrate, garantendo al contempo che il ragionamento rimanga accurato e privo di allucinazioni o conflitti di politiche. Per affrontare questa sfida, proponiamo AIDSAFE: Deliberazione Iterativa Agente per il Ragionamento sulla Sicurezza, una nuova ricetta per la generazione di dati che sfrutta la deliberazione multi-agente per espandere iterativamente il ragionamento sulle politiche di sicurezza. Una fase di raffinazione dei dati in AIDSAFE garantisce output di alta qualità eliminando pensieri ripetitivi, ridondanti e ingannevoli. I CoT generati da AIDSAFE forniscono una solida base per l'addestramento sulla sicurezza basato su fine-tuning supervisionato (SFT). Inoltre, per soddisfare la necessità di dati di preferenza nelle fasi di allineamento, come l'addestramento DPO, introduciamo una ricetta supplementare che utilizza l'aumento delle credenze per creare campioni distinti di CoT selezionati e rifiutati. Le nostre valutazioni dimostrano che i CoT generati da AIDSAFE raggiungono una superiore aderenza alle politiche e qualità del ragionamento. Di conseguenza, mostriamo che il fine-tuning di LLM open-source su questi CoT può migliorare significativamente la generalizzazione della sicurezza e la robustezza ai jailbreak, mantenendo un'utilità accettabile e una precisione nel rifiuto eccessivo. I dataset CoT generati da AIDSAFE possono essere trovati qui: https://huggingface.co/datasets/AmazonScience/AIDSAFE.

English

Safety reasoning is a recent paradigm where LLMs reason over safety policies before generating responses, thereby mitigating limitations in existing safety measures such as over-refusal and jailbreak vulnerabilities. However, implementing this paradigm is challenging due to the resource-intensive process of creating high-quality policy-embedded chain-of-thought (CoT) datasets while ensuring reasoning remains accurate and free from hallucinations or policy conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning, a novel data generation recipe that leverages multi-agent deliberation to iteratively expand reasoning on safety policies. A data refiner stage in AIDSAFE ensures high-quality outputs by eliminating repetitive, redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong foundation for supervised fine-tuning (SFT)-based safety training. Additionally, to address the need of preference data in alignment stages, such as DPO training, we introduce a supplemental recipe that uses belief augmentation to create distinct selected and rejected CoT samples. Our evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy adherence and reasoning quality. Consequently, we show that fine-tuning open-source LLMs on these CoTs can significantly improve safety generalization and jailbreak robustness while maintaining acceptable utility and over-refusal accuracy. AIDSAFE-generated CoT datasets can be found here: https://huggingface.co/datasets/AmazonScience/AIDSAFE

Verso il Ragionamento sulla Sicurezza nei LLM: Deliberazione Agente-AI per la Creazione di Dati CoT Integrati nelle Politiche

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

Abstract

Support