SafeKey: Versterking van Aha-Moment Inzichten voor Veiligheidsredenering
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning
May 22, 2025
Auteurs: Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang
cs.AI
Samenvatting
Large Reasoning Models (LRMs) introduceren een nieuw generatieparadigma van expliciet redeneren voordat een antwoord wordt gegeven, wat leidt tot opmerkelijke verbeteringen in complexe taken. Ze brengen echter ook aanzienlijke veiligheidsrisico's met zich mee tegen schadelijke queries en adversariële aanvallen. Hoewel recente mainstream veiligheidsinspanningen op LRMs, zoals supervised fine-tuning (SFT), de veiligheidsprestaties verbeteren, ontdekken we dat SFT-afgestemde modellen moeite hebben om te generaliseren naar onbekende jailbreak-prompten. Na grondig onderzoek van de generatie van LRMs identificeren we een veiligheidsaha-moment dat veiligheidsredenering kan activeren en tot een veilig antwoord kan leiden. Dit aha-moment verschijnt typisch in de 'key sentence', die volgt op het querybegripsproces van de modellen en kan aangeven of het model veilig zal doorgaan. Op basis van deze inzichten stellen we SafeKey voor, met twee complementaire doelstellingen om het veiligheidsaha-moment in de key sentence beter te activeren: (1) een Dual-Path Safety Head om het veiligheidssignaal in de interne representaties van het model vóór de key sentence te versterken, en (2) een Query-Mask Modeling-doelstelling om de aandacht van de modellen op hun querybegrip te verbeteren, wat belangrijke veiligheidsaanwijzingen bevat. Experimenten over meerdere veiligheidsbenchmarks tonen aan dat onze methoden de veiligheidsgeneraliseerbaarheid aanzienlijk verbeteren voor een breed scala aan jailbreak-aanvallen en out-of-distribution schadelijke prompten, waarbij de gemiddelde schadelijkheidsgraad met 9,6\% wordt verlaagd, terwijl de algemene capaciteiten behouden blijven. Onze analyse laat zien hoe SafeKey de veiligheid verbetert door interne aandacht te hervormen en de kwaliteit van verborgen representaties te verbeteren.
English
Large Reasoning Models (LRMs) introduce a new generation paradigm of
explicitly reasoning before answering, leading to remarkable improvements in
complex tasks. However, they pose great safety risks against harmful queries
and adversarial attacks. While recent mainstream safety efforts on LRMs,
supervised fine-tuning (SFT), improve safety performance, we find that
SFT-aligned models struggle to generalize to unseen jailbreak prompts. After
thorough investigation of LRMs' generation, we identify a safety aha moment
that can activate safety reasoning and lead to a safe response. This aha moment
typically appears in the `key sentence', which follows models' query
understanding process and can indicate whether the model will proceed safely.
Based on these insights, we propose SafeKey, including two complementary
objectives to better activate the safety aha moment in the key sentence: (1) a
Dual-Path Safety Head to enhance the safety signal in the model's internal
representations before the key sentence, and (2) a Query-Mask Modeling
objective to improve the models' attention on its query understanding, which
has important safety hints. Experiments across multiple safety benchmarks
demonstrate that our methods significantly improve safety generalization to a
wide range of jailbreak attacks and out-of-distribution harmful prompts,
lowering the average harmfulness rate by 9.6\%, while maintaining general
abilities. Our analysis reveals how SafeKey enhances safety by reshaping
internal attention and improving the quality of hidden representations.