Comment devrions-nous améliorer la sécurité des modèles de raisonnement à grande échelle : une étude empirique
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Auteurs: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Résumé
Les modèles de raisonnement à grande échelle (LRMs) ont obtenu un succès remarquable dans des tâches intensives en raisonnement telles que les mathématiques et la programmation. Cependant, leurs capacités de raisonnement accrues ne se traduisent pas nécessairement par une amélioration des performances en matière de sécurité - et dans certains cas, peuvent même les dégrader. Cela soulève une question de recherche importante : comment pouvons-nous améliorer la sécurité des LRMs ? Dans cet article, nous présentons une étude empirique complète sur la manière d'améliorer la sécurité des LRMs grâce au réglage fin supervisé (SFT). Notre investigation commence par une observation inattendue : la distillation directe de réponses sûres à partir de DeepSeek-R1 ne parvient pas à améliorer significativement la sécurité. Nous analysons ce phénomène et identifions trois schémas d'échec clés qui y contribuent. Nous démontrons ensuite que le traitement explicite de ces problèmes pendant le processus de distillation des données peut conduire à des améliorations substantielles de la sécurité. Ensuite, nous explorons si un processus de raisonnement long et complexe est nécessaire pour atteindre la sécurité. Fait intéressant, nous constatons que l'utilisation d'un processus de raisonnement court ou basé sur des modèles peut atteindre des performances de sécurité comparables - et sont significativement plus faciles à apprendre pour les modèles que des chaînes de raisonnement plus complexes. Ces résultats suscitent une réflexion plus approfondie sur le rôle du raisonnement dans la garantie de la sécurité. Enfin, nous constatons que le mélange de données de raisonnement mathématique pendant le réglage fin de la sécurité est utile pour équilibrer la sécurité et le sur-refus. Dans l'ensemble, nous espérons que notre étude empirique pourra fournir une vision plus holistique sur l'amélioration de la sécurité des LRMs. Le code et les données utilisés dans nos expériences sont disponibles sur https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary