SafeKey: Versterking van Aha-Moment Inzichten voor Veiligheidsredenering

Samenvatting

Large Reasoning Models (LRMs) introduceren een nieuw generatieparadigma van expliciet redeneren voordat een antwoord wordt gegeven, wat leidt tot opmerkelijke verbeteringen in complexe taken. Ze brengen echter ook aanzienlijke veiligheidsrisico's met zich mee tegen schadelijke queries en adversariële aanvallen. Hoewel recente mainstream veiligheidsinspanningen op LRMs, zoals supervised fine-tuning (SFT), de veiligheidsprestaties verbeteren, ontdekken we dat SFT-afgestemde modellen moeite hebben om te generaliseren naar onbekende jailbreak-prompten. Na grondig onderzoek van de generatie van LRMs identificeren we een veiligheidsaha-moment dat veiligheidsredenering kan activeren en tot een veilig antwoord kan leiden. Dit aha-moment verschijnt typisch in de 'key sentence', die volgt op het querybegripsproces van de modellen en kan aangeven of het model veilig zal doorgaan. Op basis van deze inzichten stellen we SafeKey voor, met twee complementaire doelstellingen om het veiligheidsaha-moment in de key sentence beter te activeren: (1) een Dual-Path Safety Head om het veiligheidssignaal in de interne representaties van het model vóór de key sentence te versterken, en (2) een Query-Mask Modeling-doelstelling om de aandacht van de modellen op hun querybegrip te verbeteren, wat belangrijke veiligheidsaanwijzingen bevat. Experimenten over meerdere veiligheidsbenchmarks tonen aan dat onze methoden de veiligheidsgeneraliseerbaarheid aanzienlijk verbeteren voor een breed scala aan jailbreak-aanvallen en out-of-distribution schadelijke prompten, waarbij de gemiddelde schadelijkheidsgraad met 9,6\% wordt verlaagd, terwijl de algemene capaciteiten behouden blijven. Onze analyse laat zien hoe SafeKey de veiligheid verbetert door interne aandacht te hervormen en de kwaliteit van verborgen representaties te verbeteren.

English

Large Reasoning Models (LRMs) introduce a new generation paradigm of explicitly reasoning before answering, leading to remarkable improvements in complex tasks. However, they pose great safety risks against harmful queries and adversarial attacks. While recent mainstream safety efforts on LRMs, supervised fine-tuning (SFT), improve safety performance, we find that SFT-aligned models struggle to generalize to unseen jailbreak prompts. After thorough investigation of LRMs' generation, we identify a safety aha moment that can activate safety reasoning and lead to a safe response. This aha moment typically appears in the `key sentence', which follows models' query understanding process and can indicate whether the model will proceed safely. Based on these insights, we propose SafeKey, including two complementary objectives to better activate the safety aha moment in the key sentence: (1) a Dual-Path Safety Head to enhance the safety signal in the model's internal representations before the key sentence, and (2) a Query-Mask Modeling objective to improve the models' attention on its query understanding, which has important safety hints. Experiments across multiple safety benchmarks demonstrate that our methods significantly improve safety generalization to a wide range of jailbreak attacks and out-of-distribution harmful prompts, lowering the average harmfulness rate by 9.6\%, while maintaining general abilities. Our analysis reveals how SafeKey enhances safety by reshaping internal attention and improving the quality of hidden representations.

SafeKey: Versterking van Aha-Moment Inzichten voor Veiligheidsredenering

SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning

Samenvatting

Support