ChatPaper.aiChatPaper

SafeKey: Verstärkung von Aha-Moment-Erkenntnissen für Sicherheitsüberlegungen

SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning

May 22, 2025
Autoren: Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang
cs.AI

Zusammenfassung

Large Reasoning Models (LRMs) führen ein neues Generationenparadigma ein, bei dem explizit vor der Beantwortung geschlussfolgert wird, was zu bemerkenswerten Verbesserungen bei komplexen Aufgaben führt. Sie bergen jedoch erhebliche Sicherheitsrisiken gegenüber schädlichen Anfragen und adversarischen Angriffen. Während aktuelle, weit verbreitete Sicherheitsbemühungen bei LRMs, wie das Supervised Fine-Tuning (SFT), die Sicherheitsleistung verbessern, stellen wir fest, dass SFT-angepasste Modelle Schwierigkeiten haben, auf unbekannte Jailbreak-Prompts zu generalisieren. Nach einer gründlichen Untersuchung der Generierung von LRMs identifizieren wir einen Sicherheits-Aha-Moment, der die Sicherheitslogik aktivieren und zu einer sicheren Antwort führen kann. Dieser Aha-Moment zeigt sich typischerweise im „Schlüsselsatz“, der dem Verständnisprozess der Modelle für die Anfrage folgt und anzeigen kann, ob das Modell sicher fortfahren wird. Basierend auf diesen Erkenntnissen schlagen wir SafeKey vor, das zwei komplementäre Ziele umfasst, um den Sicherheits-Aha-Moment im Schlüsselsatz besser zu aktivieren: (1) einen Dual-Path Safety Head, um das Sicherheitssignal in den internen Repräsentationen des Modells vor dem Schlüsselsatz zu verstärken, und (2) ein Query-Mask Modeling-Ziel, um die Aufmerksamkeit des Modells auf sein Anfrageverständnis zu verbessern, das wichtige Sicherheitshinweise enthält. Experimente über mehrere Sicherheitsbenchmarks zeigen, dass unsere Methoden die Sicherheitsgeneralisierung gegenüber einer Vielzahl von Jailbreak-Angriffen und schädlichen Prompts außerhalb der Verteilung signifikant verbessern und die durchschnittliche Schadensrate um 9,6 % senken, während die allgemeinen Fähigkeiten erhalten bleiben. Unsere Analyse zeigt, wie SafeKey die Sicherheit durch die Umgestaltung der internen Aufmerksamkeit und die Verbesserung der Qualität der verborgenen Repräsentationen erhöht.
English
Large Reasoning Models (LRMs) introduce a new generation paradigm of explicitly reasoning before answering, leading to remarkable improvements in complex tasks. However, they pose great safety risks against harmful queries and adversarial attacks. While recent mainstream safety efforts on LRMs, supervised fine-tuning (SFT), improve safety performance, we find that SFT-aligned models struggle to generalize to unseen jailbreak prompts. After thorough investigation of LRMs' generation, we identify a safety aha moment that can activate safety reasoning and lead to a safe response. This aha moment typically appears in the `key sentence', which follows models' query understanding process and can indicate whether the model will proceed safely. Based on these insights, we propose SafeKey, including two complementary objectives to better activate the safety aha moment in the key sentence: (1) a Dual-Path Safety Head to enhance the safety signal in the model's internal representations before the key sentence, and (2) a Query-Mask Modeling objective to improve the models' attention on its query understanding, which has important safety hints. Experiments across multiple safety benchmarks demonstrate that our methods significantly improve safety generalization to a wide range of jailbreak attacks and out-of-distribution harmful prompts, lowering the average harmfulness rate by 9.6\%, while maintaining general abilities. Our analysis reveals how SafeKey enhances safety by reshaping internal attention and improving the quality of hidden representations.

Summary

AI-Generated Summary

PDF52May 23, 2025