ChatPaper.aiChatPaper

El rechazo cae en picada: ¿Cómo falla la alineación de seguridad en el razonamiento?

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

October 7, 2025
Autores: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, Jaehong Yoon, YunXing, XingYu, Jinjin Gu
cs.AI

Resumen

Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) con capacidades de razonamiento de múltiples pasos han demostrado habilidades notables para resolver problemas, pero también presentan vulnerabilidades de seguridad preocupantes que aún no se comprenden bien. En este trabajo, investigamos por qué falla la alineación de seguridad en los modelos de razonamiento a través de una lente de interpretabilidad mecanicista. Utilizando un enfoque de sondeo lineal para rastrear las intenciones de rechazo en las posiciones de los tokens, descubrimos un fenómeno llamativo denominado "precipicio de rechazo": muchos modelos de razonamiento mal alineados identifican correctamente las indicaciones dañinas y mantienen fuertes intenciones de rechazo durante su proceso de pensamiento, pero experimentan una caída abrupta en las puntuaciones de rechazo en los tokens finales antes de generar la salida. Esto sugiere que estos modelos no son inherentemente inseguros; más bien, sus intenciones de rechazo están sistemáticamente suprimidas. A través de un análisis de intervención causal, identificamos un conjunto reducido de cabezas de atención que contribuyen negativamente al comportamiento de rechazo. La ablación de solo el 3\% de estas cabezas puede reducir las tasas de éxito de los ataques por debajo del 10\%. Basándonos en estas ideas mecanicistas, proponemos Cliff-as-a-Judge, un novedoso método de selección de datos que identifica ejemplos de entrenamiento que exhiben el mayor precipicio de rechazo para reparar eficientemente la alineación de seguridad de los modelos de razonamiento. Este enfoque logra mejoras comparables en seguridad utilizando solo el 1.7\% de los datos de entrenamiento de seguridad convencionales, demostrando un efecto de "menos es más" en la alineación de seguridad.
English
Large reasoning models (LRMs) with multi-step reasoning capabilities have shown remarkable problem-solving abilities, yet they exhibit concerning safety vulnerabilities that remain poorly understood. In this work, we investigate why safety alignment fails in reasoning models through a mechanistic interpretability lens. Using a linear probing approach to trace refusal intentions across token positions, we discover a striking phenomenon termed as refusal cliff: many poorly-aligned reasoning models correctly identify harmful prompts and maintain strong refusal intentions during their thinking process, but experience a sharp drop in refusal scores at the final tokens before output generation. This suggests that these models are not inherently unsafe; rather, their refusal intentions are systematically suppressed. Through causal intervention analysis, we identify a sparse set of attention heads that negatively contribute to refusal behavior. Ablating just 3\% of these heads can reduce attack success rates below 10\%. Building on these mechanistic insights, we propose Cliff-as-a-Judge, a novel data selection method that identifies training examples exhibiting the largest refusal cliff to efficiently repair reasoning models' safety alignment. This approach achieves comparable safety improvements using only 1.7\% of the vanilla safety training data, demonstrating a less-is-more effect in safety alignment.
PDF62October 8, 2025