ChatPaper.aiChatPaper

拒絶が崖から転落する:推論における安全性整合性の失敗

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

October 7, 2025
著者: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI

要旨

多段階推論能力を備えた大規模推論モデル(LRMs)は、顕著な問題解決能力を示す一方で、十分に理解されていない深刻な安全性の脆弱性を露呈している。本研究では、メカニズム解釈の観点から、推論モデルにおける安全性アライメントが失敗する理由を調査する。トークン位置にわたる拒否意図を追跡するための線形プローブ手法を用いて、我々は「拒否の崖(refusal cliff)」と呼ばれる顕著な現象を発見した。多くの不十分にアライメントされた推論モデルは、有害なプロンプトを正しく識別し、思考プロセス中に強い拒否意図を維持するが、出力生成直前の最終トークンにおいて拒否スコアが急激に低下する。これは、これらのモデルが本質的に安全でないのではなく、拒否意図が体系的に抑制されていることを示唆している。因果介入分析を通じて、我々は拒否行動に負の影響を与える疎なアテンションヘッドのセットを特定した。これらのヘッドのわずか3%を除去するだけで、攻撃成功率を10%未満に低減できる。これらのメカニズム的洞察に基づき、我々は「Cliff-as-a-Judge」という新しいデータ選択手法を提案する。この手法は、最大の拒否の崖を示すトレーニング例を特定し、推論モデルの安全性アライメントを効率的に修復する。このアプローチは、従来の安全性トレーニングデータのわずか1.7%を使用して同等の安全性向上を達成し、安全性アライメントにおける「少ないほど良い(less-is-more)」効果を実証している。
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have shown remarkable problem-solving abilities, yet they exhibit concerning safety vulnerabilities that remain poorly understood. In this work, we investigate why safety alignment fails in reasoning models through a mechanistic interpretability lens. Using a linear probing approach to trace refusal intentions across token positions, we discover a striking phenomenon termed as refusal cliff: many poorly-aligned reasoning models correctly identify harmful prompts and maintain strong refusal intentions during their thinking process, but experience a sharp drop in refusal scores at the final tokens before output generation. This suggests that these models are not inherently unsafe; rather, their refusal intentions are systematically suppressed. Through causal intervention analysis, we identify a sparse set of attention heads that negatively contribute to refusal behavior. Ablating just 3\% of these heads can reduce attack success rates below 10\%. Building on these mechanistic insights, we propose Cliff-as-a-Judge, a novel data selection method that identifies training examples exhibiting the largest refusal cliff to efficiently repair reasoning models' safety alignment. This approach achieves comparable safety improvements using only 1.7\% of the vanilla safety training data, demonstrating a less-is-more effect in safety alignment.
PDF62October 8, 2025