DeepSight: 올인원 언어 모델 안전성 도구 키트
DeepSight: An All-in-One LM Safety Toolkit
February 12, 2026
저자: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu
cs.AI
초록
대규모 모델(LM)의 발전이 빠르게 진행됨에 따라 그 안전성 또한 우선순위로 대두되고 있습니다. 현재의 대규모 언어 모델(LLM) 및 다중모달 대규모 언어 모델(MLLM) 안전성 워크플로우에서는 평가, 진단, 정렬이 종종 별도의 도구로 처리됩니다. 구체적으로, 안전성 평가는 외부적 행위 위험만을 파악할 수 있을 뿐 내부적 근본 원인을 규명하지는 못합니다. 한편, 안전성 진단은 구체적인 위험 시나리오와 동떨어져 설명 가능한 수준에 머무는 경우가 많습니다. 이러한 방식으로는 안전성 정렬이 내부 메커니즘 변화에 대한 전용 설명을 결여하여 일반 능력을 저하시킬 가능성이 있습니다. 이러한 문제들을 체계적으로 해결하기 위해, 우리는 새로운 안전성 평가-진단 통합 패러다임을 실천하는 오픈소스 프로젝트인 DeepSight를 제안합니다. DeepSight는 평가 도구 키트인 DeepSafe와 진단 도구 키트인 DeepScan으로 구성된 저비용, 재현 가능, 효율적이며 확장성이 매우 높은 대규모 모델 안전성 평가 프로젝트입니다. 과업 및 데이터 프로토콜을 통일함으로써 두 단계 간의 연결을 구축하고 안전성 평가를 블랙박스 수준에서 화이트박스 통찰로 전환합니다. 또한 DeepSight는 최첨단 AI 위험 평가와 연합 안전성 평가 및 진단을 지원하는 최초의 오픈소스 도구 키트입니다.
English
As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.