大規模推論モデルの安全性をどのように向上すべきか:実証的研究
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
著者: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
要旨
大規模推論モデル(LRM)は、数学やプログラミングなどの推論集約型タスクにおいて顕著な成功を収めています。しかし、その強化された推論能力が必ずしも安全性の向上につながるわけではなく、場合によっては安全性を低下させることさえあります。これにより、重要な研究課題が浮上します:LRMの安全性をどのように向上させることができるのか?本論文では、教師ありファインチューニング(SFT)を通じてLRMの安全性を向上させる方法に関する包括的な実証研究を提示します。私たちの調査は、予期せぬ観察から始まります:DeepSeek-R1から安全な応答を直接蒸留しても、安全性が大幅に向上しないという事実です。この現象を分析し、それに寄与する3つの主要な失敗パターンを特定しました。そして、データ蒸留プロセス中にこれらの問題を明示的に対処することで、安全性が大幅に向上することを実証しました。次に、安全性を達成するために長く複雑な推論プロセスが必要かどうかを探ります。興味深いことに、短いまたはテンプレートベースの推論プロセスを使用するだけで、同等の安全性を達成できることがわかりました。そして、これらの方法は、より複雑な推論チェーンよりもモデルが学習しやすいことが判明しました。これらの発見は、安全性を確保する上での推論の役割について深く考察するきっかけとなりました。最後に、安全性のファインチューニング中に数学的推論データを混ぜることが、安全性と過剰拒否のバランスを取るのに役立つことを発見しました。全体として、私たちの実証研究がLRMの安全性向上に関するより包括的な視点を提供できることを願っています。実験で使用したコードとデータはhttps://github.com/thu-coai/LRM-Safety-Studyで公開されています。
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary