Zur Sicherheitsbewertung in LLMs: KI-agentische Deliberation für die Erstellung von politikintegrierten CoT-Daten
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
Autoren: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
Zusammenfassung
Sicherheitsargumentation ist ein neues Paradigma, bei dem große Sprachmodelle (LLMs) Sicherheitsrichtlinien analysieren, bevor sie Antworten generieren, wodurch Einschränkungen bestehender Sicherheitsmaßnahmen wie übermäßige Ablehnung und Jailbreak-Schwachstellen gemildert werden. Die Implementierung dieses Paradigmas ist jedoch aufgrund des ressourcenintensiven Prozesses der Erstellung hochwertiger, richtlinienbasierter Chain-of-Thought (CoT)-Datensätze eine Herausforderung, während gleichzeitig sichergestellt werden muss, dass die Argumentation präzise bleibt und frei von Halluzinationen oder Richtlinienkonflikten ist. Um dies zu bewältigen, schlagen wir AIDSAFE vor: Agentic Iterative Deliberation for Safety Reasoning, ein neuartiges Datengenerierungsverfahren, das mehrstufige Deliberation nutzt, um die Argumentation zu Sicherheitsrichtlinien iterativ zu erweitern. Eine Datenverfeinerungsstufe in AIDSAFE stellt hochwertige Ergebnisse sicher, indem repetitive, redundante und trügerische Gedanken eliminiert werden. Die von AIDSAFE generierten CoTs bieten eine solide Grundlage für das überwachte Feinabstimmen (SFT) im Rahmen des Sicherheitstrainings. Zusätzlich führen wir, um den Bedarf an Präferenzdaten in Ausrichtungsphasen wie dem DPO-Training zu adressieren, ein ergänzendes Verfahren ein, das Glaubensverstärkung nutzt, um eindeutig ausgewählte und abgelehnte CoT-Beispiele zu erstellen. Unsere Auswertungen zeigen, dass die von AIDSAFE generierten CoTs eine überlegene Richtlinientreue und Argumentationsqualität erreichen. Folglich demonstrieren wir, dass das Feinabstimmen von Open-Source-LLMs auf diesen CoTs die Sicherheitsverallgemeinerung und Jailbreak-Robustheit signifikant verbessern kann, während eine akzeptable Nutzbarkeit und Genauigkeit bei der übermäßigen Ablehnung erhalten bleibt. Die von AIDSAFE generierten CoT-Datensätze sind hier verfügbar: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFESummary
AI-Generated Summary