ChatPaper.aiChatPaper

DeepSight: Ein All-in-One-Sicherheits-Toolkit für Sprachmodelle

DeepSight: An All-in-One LM Safety Toolkit

February 12, 2026
papers.authors: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu
cs.AI

papers.abstract

Mit der rasanten Entwicklung großer Modelle (LMs) gewinnt auch ihre Sicherheit zunehmend an Bedeutung. In den derzeitigen Sicherheits-Workflows für große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) werden Evaluation, Diagnose und Alignment häufig von separaten Tools durchgeführt. Konkret kann die Sicherheitsevaluation zwar externe Verhaltensrisiken identifizieren, jedoch keine internen Ursachen aufdecken. Gleichzeitig entfernt sich die Sicherheitsdiagnose oft von konkreten Risikoszenarien und bleibt auf einer erklärenden Ebene. Dadurch mangelt es beim Safety Alignment an spezifischen Erklärungen für Veränderungen in den internen Mechanismen, was möglicherweise die allgemeinen Fähigkeiten beeinträchtigt. Um diese Probleme systematisch anzugehen, schlagen wir ein Open-Source-Projekt namens DeepSight vor, das ein neues, integriertes Paradigma für Sicherheitsevaluation und -diagnose praktisch umsetzt. DeepSight ist ein kostengünstiges, reproduzierbares, effizientes und hochskalierbares Sicherheitsevaluationsprojekt für große Modelle, das aus dem Evaluation-Toolkit DeepSafe und dem Diagnose-Toolkit DeepScan besteht. Durch die Vereinheitlichung von Aufgaben- und Datenprotokollen schaffen wir eine Verbindung zwischen den beiden Phasen und transformieren die Sicherheitsevaluation von einer Black-Box- zu einer White-Box-Betrachtung. Zudem ist DeepSight das erste Open-Source-Toolkit, das die Evaluation fortschrittlicher KI-Risiken sowie die gemeinsame Sicherheitsevaluation und -diagnose unterstützt.
English
As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.
PDF112February 14, 2026