Como Devemos Melhorar a Segurança dos Modelos de Raciocínio de Grande Escala: Um Estudo Empírico
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Autores: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado sucesso notável em tarefas que exigem raciocínio intensivo, como matemática e programação. No entanto, suas capacidades aprimoradas de raciocínio não necessariamente se traduzem em melhor desempenho de segurança — e, em alguns casos, podem até degradá-lo. Isso levanta uma importante questão de pesquisa: como podemos melhorar a segurança dos LRMs? Neste artigo, apresentamos um estudo empírico abrangente sobre como aprimorar a segurança dos LRMs por meio de Ajuste Fino Supervisionado (SFT). Nossa investigação começa com uma observação inesperada: a destilação direta de respostas seguras do DeepSeek-R1 não melhora significativamente a segurança. Analisamos esse fenômeno e identificamos três padrões de falha principais que contribuem para isso. Em seguida, demonstramos que abordar explicitamente esses problemas durante o processo de destilação de dados pode levar a melhorias substanciais na segurança. Depois, exploramos se um processo de raciocínio longo e complexo é necessário para alcançar a segurança. Curiosamente, descobrimos que simplesmente usar um processo de raciocínio curto ou baseado em modelos pode atingir um desempenho de segurança comparável — e é significativamente mais fácil para os modelos aprenderem do que cadeias de raciocínio mais intrincadas. Essas descobertas levam a uma reflexão mais profunda sobre o papel do raciocínio na garantia da segurança. Por fim, descobrimos que misturar dados de raciocínio matemático durante o ajuste fino de segurança é útil para equilibrar segurança e excesso de recusa. No geral, esperamos que nosso estudo empírico possa fornecer uma visão mais holística sobre o aprimoramento da segurança dos LRMs. O código e os dados utilizados em nossos experimentos estão disponíveis em https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.