ChatPaper.aiChatPaper

Le refus chute d'une falaise : comment l'alignement de sécurité échoue dans le raisonnement ?

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

October 7, 2025
papers.authors: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI

papers.abstract

Les modèles de raisonnement à grande échelle (LRMs) dotés de capacités de raisonnement en plusieurs étapes ont démontré des aptitudes remarquables à résoudre des problèmes, mais ils présentent des vulnérabilités de sécurité préoccupantes qui restent mal comprises. Dans ce travail, nous étudions pourquoi l'alignement de sécurité échoue dans les modèles de raisonnement à travers une perspective d'interprétabilité mécaniste. En utilisant une approche de sondage linéaire pour tracer les intentions de refus à travers les positions de tokens, nous découvrons un phénomène frappant appelé *falaise de refus* : de nombreux modèles de raisonnement mal alignés identifient correctement les invites nuisibles et maintiennent de fortes intentions de refus pendant leur processus de réflexion, mais subissent une chute brutale des scores de refus aux derniers tokens avant la génération de la sortie. Cela suggère que ces modèles ne sont pas intrinsèquement dangereux ; plutôt, leurs intentions de refus sont systématiquement supprimées. Grâce à une analyse d'intervention causale, nous identifions un ensemble restreint de têtes d'attention qui contribuent négativement au comportement de refus. L'ablation de seulement 3 % de ces têtes peut réduire les taux de réussite des attaques à moins de 10 %. En nous appuyant sur ces insights mécanistes, nous proposons *Cliff-as-a-Judge*, une nouvelle méthode de sélection de données qui identifie les exemples d'entraînement présentant la plus grande falaise de refus pour réparer efficacement l'alignement de sécurité des modèles de raisonnement. Cette approche obtient des améliorations de sécurité comparables en utilisant seulement 1,7 % des données d'entraînement de sécurité classiques, démontrant un effet *moins c'est plus* dans l'alignement de sécurité.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have shown remarkable problem-solving abilities, yet they exhibit concerning safety vulnerabilities that remain poorly understood. In this work, we investigate why safety alignment fails in reasoning models through a mechanistic interpretability lens. Using a linear probing approach to trace refusal intentions across token positions, we discover a striking phenomenon termed as refusal cliff: many poorly-aligned reasoning models correctly identify harmful prompts and maintain strong refusal intentions during their thinking process, but experience a sharp drop in refusal scores at the final tokens before output generation. This suggests that these models are not inherently unsafe; rather, their refusal intentions are systematically suppressed. Through causal intervention analysis, we identify a sparse set of attention heads that negatively contribute to refusal behavior. Ablating just 3\% of these heads can reduce attack success rates below 10\%. Building on these mechanistic insights, we propose Cliff-as-a-Judge, a novel data selection method that identifies training examples exhibiting the largest refusal cliff to efficiently repair reasoning models' safety alignment. This approach achieves comparable safety improvements using only 1.7\% of the vanilla safety training data, demonstrating a less-is-more effect in safety alignment.
PDF62October 8, 2025