DeepSight: Een alles-in-één toolkit voor veiligheid van taalmodelen

Samenvatting

Met de snelle ontwikkeling van grootschalige modellen (LM's) staat ook hun veiligheid hoog op de agenda. In de huidige veiligheidswerkstromen voor grote taalmodellen (LLM's) en multimodale grote taalmodellen (MLLM's) worden evaluatie, diagnose en afstemming vaak door afzonderlijke tools afgehandeld. Concreet kan veiligheidsevaluatie alleen externe gedragsrisico's lokaliseren, maar geen interne oorzaken aanwijzen. Tegelijkertijd wijkt veiligheidsdiagnose vaak af van concrete risicoscenario's en blijft deze steken op het verklaarbare niveau. Hierdoor ontbreken bij veiligheidsafstemming gedetailleerde verklaringen voor veranderingen in interne mechanismen, wat de algemene capaciteiten kan aantasten. Om deze problemen systematisch aan te pakken, stellen we een open-sourceproject voor, genaamd DeepSight, om een nieuwe geïntegreerde paradigma voor veiligheidsevaluatie en -diagnose toe te passen. DeepSight is een kostenefficiënt, reproduceerbaar, efficiënt en zeer schaalbaar veiligheidsevaluatieproject voor grootschalige modellen, bestaande uit een evaluatietoolkit (DeepSafe) en een diagnosetoolkit (DeepScan). Door taken en gegevensprotocollen te standaardiseren, verbinden we de twee fasen en transformeren we veiligheidsevaluatie van black-box inzicht naar white-box inzicht. Daarnaast is DeepSight de eerste open-source toolkit die evaluatie van geavanceerde AI-risico's ondersteunt, evenals gezamenlijke veiligheidsevaluatie en -diagnose.

English

As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.

DeepSight: Een alles-in-één toolkit voor veiligheid van taalmodelen

DeepSight: An All-in-One LM Safety Toolkit

Samenvatting

Support