Как повысить безопасность крупных моделей рассуждений: эмпирическое исследование
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Авторы: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) достигли значительных успехов в задачах, требующих интенсивного рассуждения, таких как математика и программирование. Однако их улучшенные способности к рассуждению не обязательно приводят к повышению безопасности — в некоторых случаях они могут даже ухудшить её. Это поднимает важный исследовательский вопрос: как можно повысить безопасность LRMs? В данной статье мы представляем всестороннее эмпирическое исследование о том, как улучшить безопасность LRMs с помощью контролируемой тонкой настройки (Supervised Fine-Tuning, SFT). Наше исследование начинается с неожиданного наблюдения: прямое извлечение безопасных ответов из модели DeepSeek-R1 не приводит к значительному повышению безопасности. Мы анализируем это явление и выделяем три ключевых паттерна ошибок, которые способствуют этому. Затем мы показываем, что явное устранение этих проблем в процессе извлечения данных может привести к существенному улучшению безопасности. Далее мы исследуем, необходим ли длинный и сложный процесс рассуждений для достижения безопасности. Интересно, что мы обнаруживаем, что использование коротких или шаблонных процессов рассуждений может обеспечить сопоставимую безопасность — и при этом такие процессы значительно проще для изучения моделями, чем более сложные цепочки рассуждений. Эти выводы побуждают к более глубокому размышлению о роли рассуждений в обеспечении безопасности. Наконец, мы обнаруживаем, что добавление данных для математических рассуждений в процессе тонкой настройки безопасности помогает сбалансировать безопасность и чрезмерный отказ. В целом, мы надеемся, что наше эмпирическое исследование предоставит более целостное представление о повышении безопасности LRMs. Код и данные, использованные в наших экспериментах, доступны по адресу: https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary