Hoe kunnen we de veiligheid van grote redeneermodellen verbeteren: een empirisch onderzoek
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Auteurs: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Samenvatting
Grote Redeneermodellen (LRMs) hebben opmerkelijke successen behaald op taken die intensief redeneren vereisen, zoals wiskunde en programmeren. Hun verbeterde redeneervaardigheden leiden echter niet noodzakelijk tot betere veiligheidsprestaties – en kunnen deze in sommige gevallen zelfs verslechteren. Dit roept een belangrijke onderzoeksvraag op: hoe kunnen we de veiligheid van LRMs verbeteren? In dit artikel presenteren we een uitgebreide empirische studie over het verbeteren van de veiligheid van LRMs door middel van Supervised Fine-Tuning (SFT). Ons onderzoek begint met een onverwachte observatie: het direct destilleren van veilige reacties uit DeepSeek-R1 leidt niet tot een significante verbetering van de veiligheid. We analyseren dit fenomeen en identificeren drie belangrijke faalpatronen die hieraan bijdragen. Vervolgens tonen we aan dat het expliciet aanpakken van deze problemen tijdens het datadestillatieproces tot aanzienlijke veiligheidsverbeteringen kan leiden. Daarna onderzoeken we of een lang en complex redeneerproces noodzakelijk is om veiligheid te bereiken. Interessant genoeg ontdekken we dat het gebruik van korte of op sjablonen gebaseerde redeneerprocessen vergelijkbare veiligheidsprestaties kan opleveren – en dat deze aanzienlijk eenvoudiger zijn voor modellen om te leren dan ingewikkeldere redeneerketens. Deze bevindingen leiden tot een diepere reflectie op de rol van redeneren bij het waarborgen van veiligheid. Tot slot ontdekken we dat het mengen van wiskundige redeneergegevens tijdens het finetunen voor veiligheid helpt om een balans te vinden tussen veiligheid en overmatige weigering. Al met al hopen we dat onze empirische studie een meer holistisch beeld kan bieden van het verbeteren van de veiligheid van LRMs. De code en gegevens die in onze experimenten zijn gebruikt, zijn vrijgegeven op https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.