De Verborgen Risico's van Grote Redeneermodellen: Een Veiligheidsbeoordeling van R1
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1
February 18, 2025
Auteurs: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
cs.AI
Samenvatting
De snelle ontwikkeling van grote redeneermodellen, zoals OpenAI-o3 en DeepSeek-R1, heeft geleid tot aanzienlijke verbeteringen in complex redeneren vergeleken met niet-redenerende grote taalmmodellen (LLMs). Hun verbeterde capaciteiten, gecombineerd met de open-source toegang tot modellen zoals DeepSeek-R1, roepen echter ernstige veiligheidszorgen op, met name wat betreft hun potentieel voor misbruik. In dit werk presenteren we een uitgebreide veiligheidsbeoordeling van deze redeneermodellen, waarbij we gebruikmaken van gevestigde veiligheidsbenchmarks om hun naleving van veiligheidsvoorschriften te evalueren. Daarnaast onderzoeken we hun vatbaarheid voor adversariële aanvallen, zoals jailbreaking en promptinjectie, om hun robuustheid in real-world toepassingen te beoordelen. Door onze veelzijdige analyse komen we tot vier belangrijke bevindingen: (1) Er is een aanzienlijk veiligheidsgat tussen de open-source R1-modellen en het o3-mini-model, zowel op het gebied van veiligheidsbenchmarks als aanvallen, wat suggereert dat meer veiligheidsinspanningen voor R1 nodig zijn. (2) Het gedistilleerde redeneermodel vertoont een slechtere veiligheidsprestatie vergeleken met de veiligheidsafgestemde basismodellen. (3) Hoe sterker het redeneervermogen van het model, hoe groter de potentiële schade die het kan veroorzaken bij het beantwoorden van onveilige vragen. (4) Het denkproces in R1-modellen vormt grotere veiligheidszorgen dan hun uiteindelijke antwoorden. Onze studie biedt inzichten in de veiligheidsimplicaties van redeneermodellen en benadrukt de noodzaak van verdere vooruitgang in de veiligheid van R1-modellen om het gat te dichten.
English
The rapid development of large reasoning models, such as OpenAI-o3 and
DeepSeek-R1, has led to significant improvements in complex reasoning over
non-reasoning large language models~(LLMs). However, their enhanced
capabilities, combined with the open-source access of models like DeepSeek-R1,
raise serious safety concerns, particularly regarding their potential for
misuse. In this work, we present a comprehensive safety assessment of these
reasoning models, leveraging established safety benchmarks to evaluate their
compliance with safety regulations. Furthermore, we investigate their
susceptibility to adversarial attacks, such as jailbreaking and prompt
injection, to assess their robustness in real-world applications. Through our
multi-faceted analysis, we uncover four key findings: (1) There is a
significant safety gap between the open-source R1 models and the o3-mini model,
on both safety benchmark and attack, suggesting more safety effort on R1 is
needed. (2) The distilled reasoning model shows poorer safety performance
compared to its safety-aligned base models. (3) The stronger the model's
reasoning ability, the greater the potential harm it may cause when answering
unsafe questions. (4) The thinking process in R1 models pose greater safety
concerns than their final answers. Our study provides insights into the
security implications of reasoning models and highlights the need for further
advancements in R1 models' safety to close the gap.Summary
AI-Generated Summary