Veiligheidsverschuiving na Fine-Tuning: Bewijs uit Hoog-Risicodomeinen
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
April 27, 2026
Auteurs: Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell
cs.AI
Samenvatting
Stichtingsmodellen worden routinematig gefinetuned voor gebruik in specifieke domeinen, maar veiligheidsbeoordelingen worden doorgaans alleen op basismodellen uitgevoerd. Hierbij wordt impliciet aangenomen dat veiligheidseigenschappen behouden blijven tijdens downstream-aanpassing. Wij testen deze aanname door het veiligheidsgedrag van 100 modellen te analyseren, waaronder veelgebruikte finetunes in de medische en juridische domeinen, evenals gecontroleerde aanpassingen van open stichtingsmodellen naast hun basisversies. Op zowel algemene als domeinspecifieke veiligheidsbenchmarks constateren we dat goedaardig finetunen grote, heterogene en vaak tegenstrijdige veranderingen in gemeten veiligheid teweegbrengt: modellen verbeteren vaak op sommige instrumenten terwijl ze verslechteren op andere, met aanzienlijke tegenstrijdigheden tussen evaluaties. Deze resultaten tonen aan dat veiligheidsgedrag niet stabiel is onder gebruikelijke downstream-aanpassing, wat kritische vragen oproept over governance en implementatiepraktijken die zijn gecentreerd rond basismodelevaluaties. Zonder expliciete herevaluatie van gefinetunede modellen in implementatie-relevante contexten schieten dergelijke benaderingen tekort in het adequaat beheersen van downstream-risico's, waarbij praktische bronnen van schade over het hoofd worden gezien – tekortkomingen die vooral ingrijpend zijn in hoog-risicocontexten en die de huidige aansprakelijkheidsparadigma's uitdagen.
English
Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.