Naar Veiligheidsredenering in LLM's: AI-agentische Deliberatie voor Beleidsingebedde CoT Data Creatie
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
Auteurs: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
Samenvatting
Veiligheidsredenering is een recent paradigma waarbij grote taalmodellen (LLMs) redeneren over veiligheidsbeleid voordat ze reacties genereren, waardoor beperkingen in bestaande veiligheidsmaatregelen, zoals overmatige weigering en jailbreak-kwetsbaarheden, worden gemitigeerd. Het implementeren van dit paradigma is echter uitdagend vanwege het arbeidsintensieve proces van het creëren van hoogwaardige datasets met beleidsingebedde ketens van gedachten (CoT), terwijl wordt gegarandeerd dat de redenering accuraat blijft en vrij is van hallucinaties of beleidsconflicten. Om dit aan te pakken, stellen we AIDSAFE voor: Agentic Iterative Deliberation for Safety Reasoning, een nieuwe datageneratiemethode die gebruikmaakt van multi-agent deliberatie om iteratief redenering over veiligheidsbeleid uit te breiden. Een dataverfijnerstap in AIDSAFE zorgt voor hoogwaardige uitvoer door repetitieve, redundante en misleidende gedachten te elimineren. AIDSAFE-gegenereerde CoT's bieden een sterke basis voor veiligheidstraining op basis van supervised fine-tuning (SFT). Daarnaast introduceren we, om de behoefte aan voorkeursdata in uitlijningsfasen, zoals DPO-training, aan te pakken, een aanvullende methode die gebruikmaakt van geloofsaugmentatie om duidelijke geselecteerde en afgewezen CoT-monsters te creëren. Onze evaluaties tonen aan dat AIDSAFE-gegenereerde CoT's superieure beleidsadherentie en redeneerkwaliteit bereiken. Hieruit blijkt dat het finetunen van open-source LLM's op deze CoT's de veiligheidsgeneralisatie en jailbreak-robuustheid aanzienlijk kan verbeteren, terwijl aanvaardbare bruikbaarheid en nauwkeurigheid bij overmatige weigering behouden blijven. AIDSAFE-gegenereerde CoT-datasets zijn hier te vinden: https://huggingface.co/datasets/AmazonScience/AIDSAFE
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFE