El rechazo cae en picada: ¿Cómo falla la alineación de seguridad en el razonamiento?
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
October 7, 2025
Autores: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) con capacidades de razonamiento de múltiples pasos han demostrado habilidades notables para resolver problemas, pero también presentan vulnerabilidades de seguridad preocupantes que aún no se comprenden bien. En este trabajo, investigamos por qué falla la alineación de seguridad en los modelos de razonamiento a través de una lente de interpretabilidad mecanicista. Utilizando un enfoque de sondeo lineal para rastrear las intenciones de rechazo en las posiciones de los tokens, descubrimos un fenómeno llamativo denominado "precipicio de rechazo": muchos modelos de razonamiento mal alineados identifican correctamente las indicaciones dañinas y mantienen fuertes intenciones de rechazo durante su proceso de pensamiento, pero experimentan una caída abrupta en las puntuaciones de rechazo en los tokens finales antes de generar la salida. Esto sugiere que estos modelos no son inherentemente inseguros; más bien, sus intenciones de rechazo están sistemáticamente suprimidas. A través de un análisis de intervención causal, identificamos un conjunto reducido de cabezas de atención que contribuyen negativamente al comportamiento de rechazo. La ablación de solo el 3\% de estas cabezas puede reducir las tasas de éxito de los ataques por debajo del 10\%. Basándonos en estas ideas mecanicistas, proponemos Cliff-as-a-Judge, un novedoso método de selección de datos que identifica ejemplos de entrenamiento que exhiben el mayor precipicio de rechazo para reparar eficientemente la alineación de seguridad de los modelos de razonamiento. Este enfoque logra mejoras comparables en seguridad utilizando solo el 1.7\% de los datos de entrenamiento de seguridad convencionales, demostrando un efecto de "menos es más" en la alineación de seguridad.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have
shown remarkable problem-solving abilities, yet they exhibit concerning safety
vulnerabilities that remain poorly understood. In this work, we investigate why
safety alignment fails in reasoning models through a mechanistic
interpretability lens. Using a linear probing approach to trace refusal
intentions across token positions, we discover a striking phenomenon termed as
refusal cliff: many poorly-aligned reasoning models correctly identify
harmful prompts and maintain strong refusal intentions during their thinking
process, but experience a sharp drop in refusal scores at the final tokens
before output generation. This suggests that these models are not inherently
unsafe; rather, their refusal intentions are systematically suppressed. Through
causal intervention analysis, we identify a sparse set of attention heads that
negatively contribute to refusal behavior. Ablating just 3\% of these heads can
reduce attack success rates below 10\%. Building on these mechanistic insights,
we propose Cliff-as-a-Judge, a novel data selection method that
identifies training examples exhibiting the largest refusal cliff to
efficiently repair reasoning models' safety alignment. This approach achieves
comparable safety improvements using only 1.7\% of the vanilla safety training
data, demonstrating a less-is-more effect in safety alignment.