Les Risques Cachés des Modèles de Raisonnement à Grande Échelle : Une Évaluation de Sécurité de R1
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
February 18, 2025
Auteurs: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
cs.AI
Résumé
Le développement rapide des grands modèles de raisonnement, tels qu'OpenAI-o3 et DeepSeek-R1, a conduit à des améliorations significatives dans le raisonnement complexe par rapport aux grands modèles de langage (LLMs) non spécialisés dans le raisonnement. Cependant, leurs capacités accrues, combinées à l'accès open-source de modèles comme DeepSeek-R1, soulèvent de sérieuses préoccupations en matière de sécurité, notamment en ce qui concerne leur potentiel de mauvaise utilisation. Dans ce travail, nous présentons une évaluation complète de la sécurité de ces modèles de raisonnement, en exploitant des benchmarks de sécurité établis pour évaluer leur conformité aux réglementations de sécurité. De plus, nous étudions leur vulnérabilité aux attaques adverses, telles que le jailbreaking et l'injection de prompts, afin d'évaluer leur robustesse dans des applications réelles. Grâce à notre analyse multidimensionnelle, nous dégageons quatre conclusions clés : (1) Il existe un écart de sécurité significatif entre les modèles R1 open-source et le modèle o3-mini, tant sur les benchmarks de sécurité que sur les attaques, suggérant qu'un effort supplémentaire en matière de sécurité est nécessaire pour R1. (2) Le modèle de raisonnement distillé montre une performance de sécurité inférieure à celle de ses modèles de base alignés sur la sécurité. (3) Plus la capacité de raisonnement du modèle est forte, plus le potentiel de dommage est grand lorsqu'il répond à des questions non sécurisées. (4) Le processus de pensée dans les modèles R1 pose des préoccupations de sécurité plus importantes que leurs réponses finales. Notre étude fournit des insights sur les implications en matière de sécurité des modèles de raisonnement et met en lumière la nécessité de progrès supplémentaires dans la sécurité des modèles R1 pour combler cet écart.
English
The rapid development of large reasoning models, such as OpenAI-o3 and
DeepSeek-R1, has led to significant improvements in complex reasoning over
non-reasoning large language models~(LLMs). However, their enhanced
capabilities, combined with the open-source access of models like DeepSeek-R1,
raise serious safety concerns, particularly regarding their potential for
misuse. In this work, we present a comprehensive safety assessment of these
reasoning models, leveraging established safety benchmarks to evaluate their
compliance with safety regulations. Furthermore, we investigate their
susceptibility to adversarial attacks, such as jailbreaking and prompt
injection, to assess their robustness in real-world applications. Through our
multi-faceted analysis, we uncover four key findings: (1) There is a
significant safety gap between the open-source R1 models and the o3-mini model,
on both safety benchmark and attack, suggesting more safety effort on R1 is
needed. (2) The distilled reasoning model shows poorer safety performance
compared to its safety-aligned base models. (3) The stronger the model's
reasoning ability, the greater the potential harm it may cause when answering
unsafe questions. (4) The thinking process in R1 models pose greater safety
concerns than their final answers. Our study provides insights into the
security implications of reasoning models and highlights the need for further
advancements in R1 models' safety to close the gap.Summary
AI-Generated Summary