ChatPaper.aiChatPaper

Naar Veiligheidsredenering in LLM's: AI-agentische Deliberatie voor Beleidsingebedde CoT Data Creatie

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

May 27, 2025
Auteurs: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI

Samenvatting

Veiligheidsredenering is een recent paradigma waarbij grote taalmodellen (LLMs) redeneren over veiligheidsbeleid voordat ze reacties genereren, waardoor beperkingen in bestaande veiligheidsmaatregelen, zoals overmatige weigering en jailbreak-kwetsbaarheden, worden gemitigeerd. Het implementeren van dit paradigma is echter uitdagend vanwege het arbeidsintensieve proces van het creëren van hoogwaardige datasets met beleidsingebedde ketens van gedachten (CoT), terwijl wordt gegarandeerd dat de redenering accuraat blijft en vrij is van hallucinaties of beleidsconflicten. Om dit aan te pakken, stellen we AIDSAFE voor: Agentic Iterative Deliberation for Safety Reasoning, een nieuwe datageneratiemethode die gebruikmaakt van multi-agent deliberatie om iteratief redenering over veiligheidsbeleid uit te breiden. Een dataverfijnerstap in AIDSAFE zorgt voor hoogwaardige uitvoer door repetitieve, redundante en misleidende gedachten te elimineren. AIDSAFE-gegenereerde CoT's bieden een sterke basis voor veiligheidstraining op basis van supervised fine-tuning (SFT). Daarnaast introduceren we, om de behoefte aan voorkeursdata in uitlijningsfasen, zoals DPO-training, aan te pakken, een aanvullende methode die gebruikmaakt van geloofsaugmentatie om duidelijke geselecteerde en afgewezen CoT-monsters te creëren. Onze evaluaties tonen aan dat AIDSAFE-gegenereerde CoT's superieure beleidsadherentie en redeneerkwaliteit bereiken. Hieruit blijkt dat het finetunen van open-source LLM's op deze CoT's de veiligheidsgeneralisatie en jailbreak-robuustheid aanzienlijk kan verbeteren, terwijl aanvaardbare bruikbaarheid en nauwkeurigheid bij overmatige weigering behouden blijven. AIDSAFE-gegenereerde CoT-datasets zijn hier te vinden: https://huggingface.co/datasets/AmazonScience/AIDSAFE
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies before generating responses, thereby mitigating limitations in existing safety measures such as over-refusal and jailbreak vulnerabilities. However, implementing this paradigm is challenging due to the resource-intensive process of creating high-quality policy-embedded chain-of-thought (CoT) datasets while ensuring reasoning remains accurate and free from hallucinations or policy conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning, a novel data generation recipe that leverages multi-agent deliberation to iteratively expand reasoning on safety policies. A data refiner stage in AIDSAFE ensures high-quality outputs by eliminating repetitive, redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong foundation for supervised fine-tuning (SFT)-based safety training. Additionally, to address the need of preference data in alignment stages, such as DPO training, we introduce a supplemental recipe that uses belief augmentation to create distinct selected and rejected CoT samples. Our evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy adherence and reasoning quality. Consequently, we show that fine-tuning open-source LLMs on these CoTs can significantly improve safety generalization and jailbreak robustness while maintaining acceptable utility and over-refusal accuracy. AIDSAFE-generated CoT datasets can be found here: https://huggingface.co/datasets/AmazonScience/AIDSAFE
PDF172May 30, 2025