DeepSight: Um Kit de Ferramentas Completo para Segurança de Modelos de Linguagem

Resumo

À medida que o desenvolvimento de Grandes Modelos (LMs) avança rapidamente, sua segurança também é uma prioridade. No fluxo de trabalho de segurança atual dos Grandes Modelos de Linguagem (LLMs) e dos Grandes Modelos de Linguagem Multimodal (MLLMs), a avaliação, o diagnóstico e o alinhamento de segurança são frequentemente tratados por ferramentas separadas. Especificamente, a avaliação de segurança só consegue localizar riscos comportamentais externos, mas não consegue identificar as causas-raiz internas. Entretanto, o diagnóstico de segurança frequentemente se afasta de cenários de risco concretos e permanece no nível explicativo. Dessa forma, o alinhamento de segurança carece de explicações dedicadas sobre as mudanças nos mecanismos internos, potencialmente degradando as capacidades gerais. Para abordar sistematicamente essas questões, propomos um projeto de código aberto, denominado DeepSight, para praticar um novo paradigma integrado de avaliação-diagnóstico de segurança. O DeepSight é um projeto de avaliação de segurança de modelos de larga escala de baixo custo, reproduzível, eficiente e altamente escalável, constituído por um kit de ferramentas de avaliação DeepSafe e um kit de ferramentas de diagnóstico DeepScan. Ao unificar protocolos de tarefa e dados, construímos uma conexão entre as duas etapas e transformamos a avaliação de segurança de uma visão de caixa-preta para uma de caixa-branca. Além disso, o DeepSight é o primeiro kit de ferramentas de código aberto que suporta a avaliação de riscos de IA de fronteira e a avaliação e diagnóstico conjuntos de segurança.

English

As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.

DeepSight: Um Kit de Ferramentas Completo para Segurança de Modelos de Linguagem

DeepSight: An All-in-One LM Safety Toolkit

Resumo

Support