Wie sollten wir die Sicherheit großer Reasoning-Modelle verbessern: Eine empirische Studie
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
May 21, 2025
Autoren: Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang
cs.AI
Zusammenfassung
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Erfolge bei reasoning-intensiven Aufgaben wie Mathematik und Programmierung erzielt. Ihre verbesserten Reasoning-Fähigkeiten führen jedoch nicht zwangsläufig zu einer besseren Sicherheitsleistung – und können diese in einigen Fällen sogar verschlechtern. Dies wirft eine wichtige Forschungsfrage auf: Wie können wir die Sicherheit von LRMs verbessern? In diesem Artikel präsentieren wir eine umfassende empirische Studie darüber, wie die Sicherheit von LRMs durch Supervised Fine-Tuning (SFT) verbessert werden kann. Unsere Untersuchung beginnt mit einer unerwarteten Beobachtung: Die direkte Destillation sicherer Antworten aus DeepSeek-R1 führt nicht zu einer signifikanten Verbesserung der Sicherheit. Wir analysieren dieses Phänomen und identifizieren drei zentrale Fehlermuster, die dazu beitragen. Anschließend zeigen wir, dass die explizite Berücksichtigung dieser Probleme während des Daten-Destillationsprozesses zu erheblichen Sicherheitsverbesserungen führen kann. Als Nächstes untersuchen wir, ob ein langer und komplexer Reasoning-Prozess notwendig ist, um Sicherheit zu erreichen. Interessanterweise stellen wir fest, dass die Verwendung kurzer oder vorlagenbasierter Reasoning-Prozesse eine vergleichbare Sicherheitsleistung erzielen kann – und dass diese für Modelle deutlich einfacher zu erlernen sind als komplexere Reasoning-Ketten. Diese Erkenntnisse regen zu einer tieferen Reflexion über die Rolle des Reasonings bei der Gewährleistung von Sicherheit an. Schließlich stellen wir fest, dass die Einbeziehung von Mathematik-Reasoning-Daten während des Sicherheits-Fine-Tunings hilfreich ist, um Sicherheit und Überverweigerung auszugleichen. Insgesamt hoffen wir, dass unsere empirische Studie ein umfassenderes Bild zur Verbesserung der Sicherheit von LRMs liefern kann. Der Code und die Daten, die in unseren Experimenten verwendet wurden, sind unter https://github.com/thu-coai/LRM-Safety-Study veröffentlicht.
English
Large Reasoning Models (LRMs) have achieved remarkable success on
reasoning-intensive tasks such as mathematics and programming. However, their
enhanced reasoning capabilities do not necessarily translate to improved safety
performance-and in some cases, may even degrade it. This raises an important
research question: how can we enhance the safety of LRMs? In this paper, we
present a comprehensive empirical study on how to enhance the safety of LRMs
through Supervised Fine-Tuning (SFT). Our investigation begins with an
unexpected observation: directly distilling safe responses from DeepSeek-R1
fails to significantly enhance safety. We analyze this phenomenon and identify
three key failure patterns that contribute to it. We then demonstrate that
explicitly addressing these issues during the data distillation process can
lead to substantial safety improvements. Next, we explore whether a long and
complex reasoning process is necessary for achieving safety. Interestingly, we
find that simply using short or template-based reasoning process can attain
comparable safety performance-and are significantly easier for models to learn
than more intricate reasoning chains. These findings prompt a deeper reflection
on the role of reasoning in ensuring safety. Finally, we find that mixing math
reasoning data during safety fine-tuning is helpful to balance safety and
over-refusal. Overall, we hope our empirical study could provide a more
holistic picture on enhancing the safety of LRMs. The code and data used in our
experiments are released in https://github.com/thu-coai/LRM-Safety-Study.Summary
AI-Generated Summary