대규모 추론 모델의 안전성을 어떻게 강화할 것인가: 실증적 연구
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
저자: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
초록
대규모 추론 모델(Large Reasoning Models, LRMs)은 수학 및 프로그래밍과 같은 추론 집중적 작업에서 놀라운 성과를 거두었습니다. 그러나 이러한 향상된 추론 능력이 반드시 안전성 성능의 개선으로 이어지지는 않으며, 경우에 따라서는 오히려 악화시킬 수도 있습니다. 이는 중요한 연구 질문을 제기합니다: 어떻게 LRMs의 안전성을 향상시킬 수 있을까요? 본 논문에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)을 통해 LRMs의 안전성을 강화하는 방법에 대한 포괄적인 실증 연구를 제시합니다. 우리의 연구는 예상치 못한 관찰로 시작됩니다: DeepSeek-R1에서 안전한 응답을 직접 추출하는 것은 안전성을 크게 향상시키지 못했습니다. 우리는 이 현상을 분석하고 이를 야기하는 세 가지 주요 실패 패턴을 식별했습니다. 그런 다음 데이터 추출 과정에서 이러한 문제를 명시적으로 해결함으로써 상당한 안전성 개선을 이룰 수 있음을 입증했습니다. 다음으로, 안전성을 달성하기 위해 길고 복잡한 추론 과정이 필요한지 탐구했습니다. 흥미롭게도, 단순히 짧거나 템플릿 기반의 추론 과정을 사용하는 것만으로도 비슷한 수준의 안전성 성능을 달성할 수 있으며, 이는 더 복잡한 추론 체인보다 모델이 학습하기 훨씬 쉬운 것으로 나타났습니다. 이러한 발견은 안전성을 보장하는 데 있어 추론의 역할에 대한 깊은 성찰을 촉구합니다. 마지막으로, 안전성 미세 조정 과정에서 수학 추론 데이터를 혼합하는 것이 안전성과 과도한 거부 사이의 균형을 맞추는 데 도움이 된다는 것을 발견했습니다. 전반적으로, 우리의 실증 연구가 LRMs의 안전성을 강화하는 데 있어 더 포괄적인 그림을 제공할 수 있기를 바랍니다. 실험에 사용된 코드와 데이터는 https://github.com/thu-coai/LRM-Safety-Study에서 공개되었습니다.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary