¿Cómo deberíamos mejorar la seguridad de los modelos de razonamiento a gran escala? Un estudio empírico
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Autores: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Resumen
Los Modelos de Razonamiento de Gran Escala (LRMs, por sus siglas en inglés) han logrado un éxito notable en tareas que requieren un razonamiento intensivo, como las matemáticas y la programación. Sin embargo, sus capacidades mejoradas de razonamiento no necesariamente se traducen en un mejor desempeño en términos de seguridad, y en algunos casos, incluso pueden degradarlo. Esto plantea una pregunta de investigación importante: ¿cómo podemos mejorar la seguridad de los LRMs? En este artículo, presentamos un estudio empírico exhaustivo sobre cómo mejorar la seguridad de los LRMs mediante el Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Nuestra investigación comienza con una observación inesperada: la destilación directa de respuestas seguras a partir de DeepSeek-R1 no logra mejorar significativamente la seguridad. Analizamos este fenómeno e identificamos tres patrones clave de fallo que contribuyen a ello. Luego, demostramos que abordar explícitamente estos problemas durante el proceso de destilación de datos puede conducir a mejoras sustanciales en la seguridad. A continuación, exploramos si un proceso de razonamiento largo y complejo es necesario para lograr la seguridad. Curiosamente, encontramos que simplemente utilizar un proceso de razonamiento corto o basado en plantillas puede alcanzar un desempeño de seguridad comparable, y es significativamente más fácil de aprender para los modelos que cadenas de razonamiento más intrincadas. Estos hallazgos nos llevan a reflexionar más profundamente sobre el papel del razonamiento en la garantía de la seguridad. Finalmente, descubrimos que mezclar datos de razonamiento matemático durante el ajuste fino de seguridad es útil para equilibrar la seguridad y la sobre-negación. En general, esperamos que nuestro estudio empírico pueda proporcionar una visión más holística sobre cómo mejorar la seguridad de los LRMs. El código y los datos utilizados en nuestros experimentos se han publicado en https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary