ChatPaper.aiChatPaper

Weigering stort in: Hoe faalt veiligheidsafstemming in redeneren?

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

October 7, 2025
Auteurs: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI

Samenvatting

Grote redeneermodellen (LRMs) met mogelijkheden voor meerstaps redeneren hebben opmerkelijke probleemoplossende vaardigheden getoond, maar vertonen zorgwekkende veiligheidskwetsbaarheden die nog slecht worden begrepen. In dit werk onderzoeken we waarom veiligheidsafstemming faalt in redeneermodellen door middel van een mechanistische interpretatielens. Met behulp van een lineaire probing-benadering om weigeringsintenties over tokenposities te traceren, ontdekken we een opvallend fenomeen dat we de weigeringskloof noemen: veel slecht afgestemde redeneermodellen identificeren schadelijke prompts correct en behouden sterke weigeringsintenties tijdens hun denkproces, maar ervaren een scherpe daling in weigeringsscores bij de laatste tokens vóór de outputgeneratie. Dit suggereert dat deze modellen niet inherent onveilig zijn; eerder worden hun weigeringsintenties systematisch onderdrukt. Door middel van causale interventieanalyse identificeren we een beperkte set aandachtskoppen die negatief bijdragen aan weigeringsgedrag. Het uitschakelen van slechts 3% van deze koppen kan de aanvalssuccespercentages onder de 10% brengen. Gebaseerd op deze mechanistische inzichten, stellen we Cliff-as-a-Judge voor, een nieuwe dataselectiemethode die trainingsvoorbeelden identificeert die de grootste weigeringskloof vertonen om de veiligheidsafstemming van redeneermodellen efficiënt te herstellen. Deze benadering bereikt vergelijkbare veiligheidsverbeteringen met slechts 1,7% van de standaard veiligheidstrainingsdata, wat een minder-is-meer-effect in veiligheidsafstemming aantoont.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have shown remarkable problem-solving abilities, yet they exhibit concerning safety vulnerabilities that remain poorly understood. In this work, we investigate why safety alignment fails in reasoning models through a mechanistic interpretability lens. Using a linear probing approach to trace refusal intentions across token positions, we discover a striking phenomenon termed as refusal cliff: many poorly-aligned reasoning models correctly identify harmful prompts and maintain strong refusal intentions during their thinking process, but experience a sharp drop in refusal scores at the final tokens before output generation. This suggests that these models are not inherently unsafe; rather, their refusal intentions are systematically suppressed. Through causal intervention analysis, we identify a sparse set of attention heads that negatively contribute to refusal behavior. Ablating just 3\% of these heads can reduce attack success rates below 10\%. Building on these mechanistic insights, we propose Cliff-as-a-Judge, a novel data selection method that identifies training examples exhibiting the largest refusal cliff to efficiently repair reasoning models' safety alignment. This approach achieves comparable safety improvements using only 1.7\% of the vanilla safety training data, demonstrating a less-is-more effect in safety alignment.
PDF62October 8, 2025