DeepSight : Une Boîte à Outils Complète pour la Sécurité des Modèles de Langage
DeepSight: An All-in-One LM Safety Toolkit
February 12, 2026
papers.authors: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu
cs.AI
papers.abstract
Alors que le développement des modèles de grande taille (LMs) progresse rapidement, leur sécurité est également une priorité. Dans les processus de sécurité actuels des grands modèles de langage (LLMs) et des grands modèles de langage multimodaux (MLLMs), l'évaluation, le diagnostic et l'alignement sont souvent traités par des outils distincts. Plus précisément, l'évaluation de la sécurité ne peut que localiser les risques comportementaux externes sans pouvoir identifier les causes racines internes. Parallèlement, le diagnostic de sécurité s'écarte souvent des scénarios de risque concrets et reste à un niveau explicatif superficiel. De cette manière, l'alignement de la sécurité manque d'explications dédiées sur les changements des mécanismes internes, risquant de dégrader les capacités générales. Pour résoudre systématiquement ces problèmes, nous proposons un projet open source, nommé DeepSight, pour mettre en œuvre un nouveau paradigme intégré d'évaluation-diagnostic de la sécurité. DeepSight est un projet d'évaluation de la sécurité des modèles de grande taille, peu coûteux, reproductible, efficace et hautement évolutif, comprenant une boîte à outils d'évaluation DeepSafe et une boîte à outils de diagnostic DeepScan. En unifiant les protocoles de tâches et de données, nous établissons un lien entre les deux étapes et transformons l'évaluation de la sécurité d'une approche en boîte noire en une analyse en boîte blanche. Par ailleurs, DeepSight est la première boîte à outils open source à prendre en charge l'évaluation des risques d'IA de pointe et l'évaluation-diagnostic conjoints de la sécurité.
English
As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.