ChatPaper.aiChatPaper

A Recusa Cai de um Penhasco: Como o Alinhamento de Segurança Falha no Raciocínio?

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

October 7, 2025
Autores: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI

Resumo

Modelos de raciocínio de grande escala (LRMs) com capacidades de raciocínio em múltiplas etapas têm demonstrado habilidades notáveis na resolução de problemas, mas ainda apresentam vulnerabilidades de segurança preocupantes que permanecem pouco compreendidas. Neste trabalho, investigamos por que o alinhamento de segurança falha em modelos de raciocínio através de uma lente de interpretabilidade mecanicista. Utilizando uma abordagem de sondagem linear para rastrear intenções de recusa ao longo das posições de tokens, descobrimos um fenômeno marcante denominado como "precipício de recusa": muitos modelos de raciocínio mal alinhados identificam corretamente prompts prejudiciais e mantêm fortes intenções de recusa durante seu processo de pensamento, mas experimentam uma queda abrupta nas pontuações de recusa nos tokens finais antes da geração da resposta. Isso sugere que esses modelos não são inerentemente inseguros; em vez disso, suas intenções de recusa são sistematicamente suprimidas. Através de uma análise de intervenção causal, identificamos um conjunto esparso de cabeças de atenção que contribuem negativamente para o comportamento de recusa. A ablação de apenas 3\% dessas cabeças pode reduzir as taxas de sucesso de ataques para menos de 10\%. Com base nessas percepções mecanicistas, propomos o "Cliff-as-a-Judge", um novo método de seleção de dados que identifica exemplos de treinamento que exibem o maior precipício de recusa para reparar eficientemente o alinhamento de segurança dos modelos de raciocínio. Essa abordagem alcança melhorias de segurança comparáveis utilizando apenas 1,7\% dos dados de treinamento de segurança convencionais, demonstrando um efeito "menos é mais" no alinhamento de segurança.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have shown remarkable problem-solving abilities, yet they exhibit concerning safety vulnerabilities that remain poorly understood. In this work, we investigate why safety alignment fails in reasoning models through a mechanistic interpretability lens. Using a linear probing approach to trace refusal intentions across token positions, we discover a striking phenomenon termed as refusal cliff: many poorly-aligned reasoning models correctly identify harmful prompts and maintain strong refusal intentions during their thinking process, but experience a sharp drop in refusal scores at the final tokens before output generation. This suggests that these models are not inherently unsafe; rather, their refusal intentions are systematically suppressed. Through causal intervention analysis, we identify a sparse set of attention heads that negatively contribute to refusal behavior. Ablating just 3\% of these heads can reduce attack success rates below 10\%. Building on these mechanistic insights, we propose Cliff-as-a-Judge, a novel data selection method that identifies training examples exhibiting the largest refusal cliff to efficiently repair reasoning models' safety alignment. This approach achieves comparable safety improvements using only 1.7\% of the vanilla safety training data, demonstrating a less-is-more effect in safety alignment.
PDF62October 8, 2025