Verso il Ragionamento sulla Sicurezza nei LLM: Deliberazione Agente-AI per la Creazione di Dati CoT Integrati nelle Politiche
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
Autori: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
Abstract
Il ragionamento sulla sicurezza è un paradigma recente in cui i modelli linguistici di grandi dimensioni (LLM) ragionano sulle politiche di sicurezza prima di generare risposte, mitigando così le limitazioni delle misure di sicurezza esistenti, come il rifiuto eccessivo e le vulnerabilità di jailbreak. Tuttavia, implementare questo paradigma è impegnativo a causa del processo ad alta intensità di risorse necessario per creare dataset di catena di pensiero (CoT) di alta qualità con politiche integrate, garantendo al contempo che il ragionamento rimanga accurato e privo di allucinazioni o conflitti di politiche. Per affrontare questa sfida, proponiamo AIDSAFE: Deliberazione Iterativa Agente per il Ragionamento sulla Sicurezza, una nuova ricetta per la generazione di dati che sfrutta la deliberazione multi-agente per espandere iterativamente il ragionamento sulle politiche di sicurezza. Una fase di raffinazione dei dati in AIDSAFE garantisce output di alta qualità eliminando pensieri ripetitivi, ridondanti e ingannevoli. I CoT generati da AIDSAFE forniscono una solida base per l'addestramento sulla sicurezza basato su fine-tuning supervisionato (SFT). Inoltre, per soddisfare la necessità di dati di preferenza nelle fasi di allineamento, come l'addestramento DPO, introduciamo una ricetta supplementare che utilizza l'aumento delle credenze per creare campioni distinti di CoT selezionati e rifiutati. Le nostre valutazioni dimostrano che i CoT generati da AIDSAFE raggiungono una superiore aderenza alle politiche e qualità del ragionamento. Di conseguenza, mostriamo che il fine-tuning di LLM open-source su questi CoT può migliorare significativamente la generalizzazione della sicurezza e la robustezza ai jailbreak, mantenendo un'utilità accettabile e una precisione nel rifiuto eccessivo. I dataset CoT generati da AIDSAFE possono essere trovati qui: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFE