ChatPaper.aiChatPaper

大規模推論モデルの潜在リスク:R1の安全性評価

The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

February 18, 2025
著者: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
cs.AI

要旨

大規模推論モデル、例えばOpenAI-o3やDeepSeek-R1の急速な発展により、非推論型大規模言語モデル(LLMs)と比較して複雑な推論能力が大幅に向上しました。しかし、これらのモデルの強化された能力と、DeepSeek-R1のようなモデルのオープンソース化は、特に悪用の可能性に関して深刻な安全上の懸念を引き起こしています。本研究では、これらの推論モデルの包括的な安全性評価を行い、確立された安全性ベンチマークを活用して、安全規制への準拠度を評価します。さらに、ジャイルブレイクやプロンプトインジェクションなどの敵対的攻撃に対する脆弱性を調査し、実世界のアプリケーションにおける堅牢性を評価します。多面的な分析を通じて、以下の4つの主要な発見を明らかにしました:(1)オープンソースのR1モデルとo3-miniモデルの間には、安全性ベンチマークと攻撃の両方において大きな安全性のギャップが存在し、R1モデルに対するさらなる安全対策が必要であることが示唆されています。(2)蒸留された推論モデルは、安全性が調整されたベースモデルと比較して、安全性のパフォーマンスが劣っています。(3)モデルの推論能力が強ければ強いほど、安全でない質問に答える際に引き起こす潜在的な危害が大きくなります。(4)R1モデルの思考プロセスは、最終的な回答よりも大きな安全上の懸念を引き起こします。本研究は、推論モデルのセキュリティへの影響についての洞察を提供し、R1モデルの安全性を向上させ、ギャップを埋めるためのさらなる進展の必要性を強調しています。
English
The rapid development of large reasoning models, such as OpenAI-o3 and DeepSeek-R1, has led to significant improvements in complex reasoning over non-reasoning large language models~(LLMs). However, their enhanced capabilities, combined with the open-source access of models like DeepSeek-R1, raise serious safety concerns, particularly regarding their potential for misuse. In this work, we present a comprehensive safety assessment of these reasoning models, leveraging established safety benchmarks to evaluate their compliance with safety regulations. Furthermore, we investigate their susceptibility to adversarial attacks, such as jailbreaking and prompt injection, to assess their robustness in real-world applications. Through our multi-faceted analysis, we uncover four key findings: (1) There is a significant safety gap between the open-source R1 models and the o3-mini model, on both safety benchmark and attack, suggesting more safety effort on R1 is needed. (2) The distilled reasoning model shows poorer safety performance compared to its safety-aligned base models. (3) The stronger the model's reasoning ability, the greater the potential harm it may cause when answering unsafe questions. (4) The thinking process in R1 models pose greater safety concerns than their final answers. Our study provides insights into the security implications of reasoning models and highlights the need for further advancements in R1 models' safety to close the gap.

Summary

AI-Generated Summary

PDF72February 20, 2025