Modelimmunisatie vanuit een Condition Number Perspectief
Model Immunization from a Condition Number Perspective
May 29, 2025
Auteurs: Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
cs.AI
Samenvatting
Model immunisatie heeft als doel modellen voor te trainen die moeilijk te finetunen zijn voor schadelijke taken, terwijl hun bruikbaarheid voor andere niet-schadelijke taken behouden blijft. Hoewel eerder werk empirisch bewijs heeft getoond voor het immuniseren van tekst-naar-beeldmodellen, blijft het sleutelbegrip van wanneer immunisatie mogelijk is en een precieze definitie van een geïmmuniseerd model onduidelijk. In dit werk stellen we een raamwerk voor, gebaseerd op het conditiegetal van een Hessiaanse matrix, om modelimmunisatie voor lineaire modellen te analyseren. Op basis van dit raamwerk ontwerpen we een algoritme met regularisatietermen om de resulterende conditiegetallen na de voorafgaande training te beheersen. Empirische resultaten op lineaire modellen en niet-lineaire deep-nets demonstreren de effectiviteit van het voorgestelde algoritme voor modelimmunisatie. De code is beschikbaar op https://github.com/amberyzheng/model-immunization-cond-num.
English
Model immunization aims to pre-train models that are difficult to fine-tune
on harmful tasks while retaining their utility on other non-harmful tasks.
Though prior work has shown empirical evidence for immunizing text-to-image
models, the key understanding of when immunization is possible and a precise
definition of an immunized model remain unclear. In this work, we propose a
framework, based on the condition number of a Hessian matrix, to analyze model
immunization for linear models. Building on this framework, we design an
algorithm with regularization terms to control the resulting condition numbers
after pre-training. Empirical results on linear models and non-linear deep-nets
demonstrate the effectiveness of the proposed algorithm on model immunization.
The code is available at
https://github.com/amberyzheng/model-immunization-cond-num.