ChatPaper.aiChatPaper

DeepSight: Un Kit Integral de Seguridad para Modelos de Lenguaje

DeepSight: An All-in-One LM Safety Toolkit

February 12, 2026
Autores: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu
cs.AI

Resumen

A medida que el desarrollo de los Modelos de Gran Tamaño (LM) avanza rápidamente, su seguridad también es una prioridad. En el flujo de trabajo de seguridad actual de los Modelos de Lenguaje de Gran Tamaño (LLM) y los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLM), la evaluación, el diagnóstico y la alineación suelen manejarse con herramientas separadas. Específicamente, la evaluación de seguridad solo puede localizar riesgos conductuales externos, pero no puede determinar las causas raíz internas. Mientras tanto, el diagnóstico de seguridad a menudo se aleja de escenarios de riesgo concretos y se mantiene en un nivel explicativo. De esta manera, la alineación de seguridad carece de explicaciones dedicadas sobre los cambios en los mecanismos internos, lo que potencialmente degrada las capacidades generales. Para abordar sistemáticamente estos problemas, proponemos un proyecto de código abierto, denominado DeepSight, para practicar un nuevo paradigma integrado de evaluación-diagnóstico de seguridad. DeepSight es un proyecto de evaluación de seguridad de modelos a gran escala de bajo costo, reproducible, eficiente y altamente escalable, que consta de un kit de herramientas de evaluación, DeepSafe, y un kit de herramientas de diagnóstico, DeepScan. Al unificar los protocolos de tareas y datos, construimos una conexión entre las dos etapas y transformamos la evaluación de seguridad de una perspectiva de caja negra a una de caja blanca. Además, DeepSight es el primer kit de herramientas de código abierto que admite la evaluación de riesgos de IA de vanguardia y la evaluación y diagnóstico de seguridad conjuntos.
English
As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.
PDF112February 14, 2026