ChatPaper.aiChatPaper

I Rischi Nascosti dei Modelli di Ragionamento su Larga Scala: Una Valutazione della Sicurezza di R1

The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

February 18, 2025
Autori: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
cs.AI

Abstract

Il rapido sviluppo di modelli di ragionamento su larga scala, come OpenAI-o3 e DeepSeek-R1, ha portato a significativi miglioramenti nel ragionamento complesso rispetto ai modelli di linguaggio di grandi dimensioni (LLM) non orientati al ragionamento. Tuttavia, le loro capacità avanzate, combinate con l'accesso open-source di modelli come DeepSeek-R1, sollevano serie preoccupazioni in termini di sicurezza, in particolare riguardo al loro potenziale di utilizzo improprio. In questo lavoro, presentiamo una valutazione completa della sicurezza di questi modelli di ragionamento, sfruttando benchmark di sicurezza consolidati per valutarne la conformità alle normative di sicurezza. Inoltre, indaghiamo la loro suscettibilità ad attacchi avversari, come il jailbreaking e l'iniezione di prompt, per valutarne la robustezza in applicazioni reali. Attraverso la nostra analisi multifattoriale, abbiamo individuato quattro risultati chiave: (1) Esiste un divario significativo in termini di sicurezza tra i modelli R1 open-source e il modello o3-mini, sia nei benchmark di sicurezza che negli attacchi, suggerendo la necessità di maggiori sforzi di sicurezza su R1. (2) Il modello di ragionamento distillato mostra prestazioni di sicurezza inferiori rispetto ai suoi modelli base allineati alla sicurezza. (3) Più forte è la capacità di ragionamento del modello, maggiore è il potenziale danno che può causare quando risponde a domande non sicure. (4) Il processo di pensiero nei modelli R1 rappresenta una preoccupazione di sicurezza maggiore rispetto alle loro risposte finali. Il nostro studio fornisce approfondimenti sulle implicazioni di sicurezza dei modelli di ragionamento e sottolinea la necessità di ulteriori progressi nella sicurezza dei modelli R1 per colmare il divario.
English
The rapid development of large reasoning models, such as OpenAI-o3 and DeepSeek-R1, has led to significant improvements in complex reasoning over non-reasoning large language models~(LLMs). However, their enhanced capabilities, combined with the open-source access of models like DeepSeek-R1, raise serious safety concerns, particularly regarding their potential for misuse. In this work, we present a comprehensive safety assessment of these reasoning models, leveraging established safety benchmarks to evaluate their compliance with safety regulations. Furthermore, we investigate their susceptibility to adversarial attacks, such as jailbreaking and prompt injection, to assess their robustness in real-world applications. Through our multi-faceted analysis, we uncover four key findings: (1) There is a significant safety gap between the open-source R1 models and the o3-mini model, on both safety benchmark and attack, suggesting more safety effort on R1 is needed. (2) The distilled reasoning model shows poorer safety performance compared to its safety-aligned base models. (3) The stronger the model's reasoning ability, the greater the potential harm it may cause when answering unsafe questions. (4) The thinking process in R1 models pose greater safety concerns than their final answers. Our study provides insights into the security implications of reasoning models and highlights the need for further advancements in R1 models' safety to close the gap.

Summary

AI-Generated Summary

PDF72February 20, 2025