Deriva della Sicurezza dopo il Fine-Tuning: Evidenze da Domini ad Alto Rischio
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
April 27, 2026
Autori: Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell
cs.AI
Abstract
I modelli foundation vengono regolarmente sottoposti a fine-tuning per l'utilizzo in domini specifici, mentre le valutazioni di sicurezza vengono tipicamente condotte solo sui modelli base, presupponendo implicitamente che le proprietà di sicurezza permangano attraverso l'adattamento downstream. Mettiamo alla prova questo assunto analizzando il comportamento in termini di sicurezza di 100 modelli, inclusi modelli con fine-tuning ampiamente utilizzati nei domini medico e legale, nonché adattamenti controllati di modelli foundation open affiancati alle loro versioni base. Attraverso benchmark di sicurezza sia generici che dominio-specifici, scopriamo che il fine-tuning benigno induce cambiamenti ampi, eterogenei e spesso contraddittori nella sicurezza misurata: i modelli migliorano frequentemente su alcuni strumenti mentre peggiorano su altri, con un disaccordo sostanziale tra le valutazioni. Questi risultati dimostrano che il comportamento di sicurezza non è stabile sotto un ordinario adattamento downstream, sollevando interrogativi critici sulle pratiche di governance e deployment centrate sulle valutazioni dei modelli base. Senza una riesplicita rivalutazione dei modelli con fine-tuning in contesti rilevanti per il deployment, tali approcci si rivelano insufficienti per gestire adeguatamente il rischio downstream, trascurando fonti pratiche di danno – fallimenti che sono particolarmente consequenziali in contesti ad alto rischio e che sfidano gli attuali paradigmi di responsabilità.
English
Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.