Отказ падает с обрыва: как безопасное согласование терпит неудачу в рассуждениях?
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
October 7, 2025
Авторы: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI
Аннотация
Крупные модели рассуждений (LRMs) с возможностью многошагового анализа продемонстрировали впечатляющие способности к решению задач, однако они также выявили серьезные уязвимости в области безопасности, которые остаются недостаточно изученными. В данной работе мы исследуем причины сбоев в обеспечении безопасности в моделях рассуждений через призму механистической интерпретируемости. Используя линейный подход зондирования для отслеживания намерений отказа на различных позициях токенов, мы обнаружили примечательное явление, названное "обрывом отказа": многие плохо настроенные модели рассуждений корректно идентифицируют вредоносные запросы и сохраняют сильные намерения отказа в процессе мышления, но испытывают резкое падение показателей отказа на финальных токенах перед генерацией ответа. Это свидетельствует о том, что такие модели не являются изначально небезопасными; скорее, их намерения отказа систематически подавляются. С помощью анализа причинных вмешательств мы выявили небольшой набор голов внимания, которые негативно влияют на поведение отказа. Отключение всего 3\% этих голов позволяет снизить успешность атак ниже 10\%. Опираясь на эти механистические инсайты, мы предлагаем Cliff-as-a-Judge — новый метод выбора данных, который идентифицирует обучающие примеры с наибольшим "обрывом отказа" для эффективного восстановления безопасности в моделях рассуждений. Этот подход достигает сопоставимых улучшений в безопасности, используя всего 1.7\% стандартных данных для обучения безопасности, демонстрируя эффект "меньше — значит больше" в настройке безопасности.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have
shown remarkable problem-solving abilities, yet they exhibit concerning safety
vulnerabilities that remain poorly understood. In this work, we investigate why
safety alignment fails in reasoning models through a mechanistic
interpretability lens. Using a linear probing approach to trace refusal
intentions across token positions, we discover a striking phenomenon termed as
refusal cliff: many poorly-aligned reasoning models correctly identify
harmful prompts and maintain strong refusal intentions during their thinking
process, but experience a sharp drop in refusal scores at the final tokens
before output generation. This suggests that these models are not inherently
unsafe; rather, their refusal intentions are systematically suppressed. Through
causal intervention analysis, we identify a sparse set of attention heads that
negatively contribute to refusal behavior. Ablating just 3\% of these heads can
reduce attack success rates below 10\%. Building on these mechanistic insights,
we propose Cliff-as-a-Judge, a novel data selection method that
identifies training examples exhibiting the largest refusal cliff to
efficiently repair reasoning models' safety alignment. This approach achieves
comparable safety improvements using only 1.7\% of the vanilla safety training
data, demonstrating a less-is-more effect in safety alignment.