Ablehnung stürzt ins Bodenlose: Wie scheitert Sicherheitsausrichtung beim logischen Denken?
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
October 7, 2025
papers.authors: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) mit Fähigkeiten zur mehrstufigen Argumentation haben bemerkenswerte Problemlösungsfähigkeiten gezeigt, weisen jedoch besorgniserregende Sicherheitslücken auf, die noch weitgehend unverstanden sind. In dieser Arbeit untersuchen wir, warum die Sicherheitsausrichtung in Reasoning-Modellen versagt, und zwar durch die Linse der mechanistischen Interpretierbarkeit. Mithilfe eines linearen Probing-Ansatzes zur Verfolgung von Ablehnungsabsichten über Token-Positionen hinweg entdecken wir ein auffälliges Phänomen, das als „Refusal Cliff“ bezeichnet wird: Viele schlecht ausgerichtete Reasoning-Modelle identifizieren schädliche Eingabeaufforderungen korrekt und behalten während ihres Denkprozesses starke Ablehnungsabsichten bei, erleben jedoch einen starken Abfall der Ablehnungswerte bei den letzten Token vor der Generierung der Ausgabe. Dies deutet darauf hin, dass diese Modelle nicht inhärent unsicher sind; vielmehr werden ihre Ablehnungsabsichten systematisch unterdrückt. Durch kausale Interventionsanalysen identifizieren wir eine spärliche Menge von Attention-Heads, die negativ zum Ablehnungsverhalten beitragen. Die Ablation von nur 3 % dieser Heads kann die Angriffserfolgsrate auf unter 10 % reduzieren. Aufbauend auf diesen mechanistischen Erkenntnissen schlagen wir „Cliff-as-a-Judge“ vor, eine neuartige Datenauswahlmethode, die Trainingsbeispiele identifiziert, die den größten „Refusal Cliff“ aufweisen, um die Sicherheitsausrichtung von Reasoning-Modellen effizient zu reparieren. Dieser Ansatz erreicht vergleichbare Sicherheitsverbesserungen mit nur 1,7 % der herkömmlichen Sicherheitstrainingsdaten und demonstriert damit einen „Weniger-ist-mehr“-Effekt in der Sicherheitsausrichtung.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have
shown remarkable problem-solving abilities, yet they exhibit concerning safety
vulnerabilities that remain poorly understood. In this work, we investigate why
safety alignment fails in reasoning models through a mechanistic
interpretability lens. Using a linear probing approach to trace refusal
intentions across token positions, we discover a striking phenomenon termed as
refusal cliff: many poorly-aligned reasoning models correctly identify
harmful prompts and maintain strong refusal intentions during their thinking
process, but experience a sharp drop in refusal scores at the final tokens
before output generation. This suggests that these models are not inherently
unsafe; rather, their refusal intentions are systematically suppressed. Through
causal intervention analysis, we identify a sparse set of attention heads that
negatively contribute to refusal behavior. Ablating just 3\% of these heads can
reduce attack success rates below 10\%. Building on these mechanistic insights,
we propose Cliff-as-a-Judge, a novel data selection method that
identifies training examples exhibiting the largest refusal cliff to
efficiently repair reasoning models' safety alignment. This approach achieves
comparable safety improvements using only 1.7\% of the vanilla safety training
data, demonstrating a less-is-more effect in safety alignment.