Il Rifiuto Crolla Precipitosamente: Come l'Allineamento alla Sicurezza Fallisce nel Ragionamento?
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
October 7, 2025
Autori: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI
Abstract
I grandi modelli di ragionamento (LRM) con capacità di ragionamento multi-step hanno dimostrato notevoli abilità nella risoluzione di problemi, ma presentano preoccupanti vulnerabilità di sicurezza che rimangono poco comprese. In questo lavoro, indaghiamo il motivo per cui l'allineamento alla sicurezza fallisce nei modelli di ragionamento attraverso una lente di interpretabilità meccanicistica. Utilizzando un approccio di probing lineare per tracciare le intenzioni di rifiuto attraverso le posizioni dei token, scopriamo un fenomeno sorprendente denominato "refusal cliff": molti modelli di ragionamento scarsamente allineati identificano correttamente prompt dannosi e mantengono forti intenzioni di rifiuto durante il loro processo di pensiero, ma subiscono un brusco calo nei punteggi di rifiuto nei token finali prima della generazione dell'output. Ciò suggerisce che questi modelli non siano intrinsecamente insicuri; piuttosto, le loro intenzioni di rifiuto vengono sistematicamente soppresse. Attraverso un'analisi di intervento causale, identifichiamo un insieme sparso di testine di attenzione che contribuiscono negativamente al comportamento di rifiuto. L'ablazione di appena il 3% di queste testine può ridurre i tassi di successo degli attacchi al di sotto del 10%. Basandoci su queste intuizioni meccanicistiche, proponiamo Cliff-as-a-Judge, un nuovo metodo di selezione dei dati che identifica esempi di addestramento che mostrano il più grande refusal cliff per riparare in modo efficiente l'allineamento alla sicurezza dei modelli di ragionamento. Questo approccio raggiunge miglioramenti comparabili in termini di sicurezza utilizzando solo l'1,7% dei dati di addestramento alla sicurezza standard, dimostrando un effetto "less-is-more" nell'allineamento alla sicurezza.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have
shown remarkable problem-solving abilities, yet they exhibit concerning safety
vulnerabilities that remain poorly understood. In this work, we investigate why
safety alignment fails in reasoning models through a mechanistic
interpretability lens. Using a linear probing approach to trace refusal
intentions across token positions, we discover a striking phenomenon termed as
refusal cliff: many poorly-aligned reasoning models correctly identify
harmful prompts and maintain strong refusal intentions during their thinking
process, but experience a sharp drop in refusal scores at the final tokens
before output generation. This suggests that these models are not inherently
unsafe; rather, their refusal intentions are systematically suppressed. Through
causal intervention analysis, we identify a sparse set of attention heads that
negatively contribute to refusal behavior. Ablating just 3\% of these heads can
reduce attack success rates below 10\%. Building on these mechanistic insights,
we propose Cliff-as-a-Judge, a novel data selection method that
identifies training examples exhibiting the largest refusal cliff to
efficiently repair reasoning models' safety alignment. This approach achieves
comparable safety improvements using only 1.7\% of the vanilla safety training
data, demonstrating a less-is-more effect in safety alignment.