ChatPaper.aiChatPaper

Come Dovremmo Migliorare la Sicurezza dei Modelli di Ragionamento su Grande Scala: Uno Studio Empirico

How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study

May 21, 2025
Autori: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI

Abstract

I Large Reasoning Models (LRM) hanno ottenuto un successo notevole in compiti ad alta intensità di ragionamento come la matematica e la programmazione. Tuttavia, le loro capacità di ragionamento potenziate non si traducono necessariamente in un miglioramento delle prestazioni in termini di sicurezza—e in alcuni casi, potrebbero persino degradarle. Ciò solleva un'importante questione di ricerca: come possiamo migliorare la sicurezza degli LRM? In questo articolo, presentiamo uno studio empirico completo su come migliorare la sicurezza degli LRM attraverso il Fine-Tuning Supervisionato (SFT). La nostra indagine inizia con un'osservazione inaspettata: la distillazione diretta di risposte sicure da DeepSeek-R1 non riesce a migliorare significativamente la sicurezza. Analizziamo questo fenomeno e identifichiamo tre modelli di fallimento chiave che contribuiscono a esso. Dimostriamo quindi che affrontare esplicitamente questi problemi durante il processo di distillazione dei dati può portare a sostanziali miglioramenti della sicurezza. Successivamente, esploriamo se un processo di ragionamento lungo e complesso sia necessario per raggiungere la sicurezza. Curiosamente, scopriamo che l'uso di un processo di ragionamento breve o basato su modelli può ottenere prestazioni di sicurezza comparabili—e sono significativamente più facili da apprendere per i modelli rispetto a catene di ragionamento più intricate. Questi risultati spingono a una riflessione più profonda sul ruolo del ragionamento nel garantire la sicurezza. Infine, scopriamo che la miscelazione di dati di ragionamento matematico durante il fine-tuning della sicurezza è utile per bilanciare sicurezza e rifiuto eccessivo. Nel complesso, speriamo che il nostro studio empirico possa fornire un quadro più olistico sul miglioramento della sicurezza degli LRM. Il codice e i dati utilizzati nei nostri esperimenti sono rilasciati su https://github.com/thu-coai/LRM-Safety-Study.
English
Large Reasoning Models (LRMs) have achieved remarkable success on reasoning-intensive tasks such as mathematics and programming. However, their enhanced reasoning capabilities do not necessarily translate to improved safety performance-and in some cases, may even degrade it. This raises an important research question: how can we enhance the safety of LRMs? In this paper, we present a comprehensive empirical study on how to enhance the safety of LRMs through Supervised Fine-Tuning (SFT). Our investigation begins with an unexpected observation: directly distilling safe responses from DeepSeek-R1 fails to significantly enhance safety. We analyze this phenomenon and identify three key failure patterns that contribute to it. We then demonstrate that explicitly addressing these issues during the data distillation process can lead to substantial safety improvements. Next, we explore whether a long and complex reasoning process is necessary for achieving safety. Interestingly, we find that simply using short or template-based reasoning process can attain comparable safety performance-and are significantly easier for models to learn than more intricate reasoning chains. These findings prompt a deeper reflection on the role of reasoning in ensuring safety. Finally, we find that mixing math reasoning data during safety fine-tuning is helpful to balance safety and over-refusal. Overall, we hope our empirical study could provide a more holistic picture on enhancing the safety of LRMs. The code and data used in our experiments are released in https://github.com/thu-coai/LRM-Safety-Study.
PDF132May 22, 2025