Dérive de la sécurité après le réglage fin : preuves dans des domaines à haut risque
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
April 27, 2026
Auteurs: Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell
cs.AI
Résumé
Les modèles de fondation sont régulièrement affinés pour être utilisés dans des domaines spécifiques, mais les évaluations de sécurité sont généralement menées uniquement sur les modèles de base, supposant implicitement que les propriétés de sécurité persistent lors de l'adaptation en aval. Nous testons cette hypothèse en analysant le comportement sécuritaire de 100 modèles, incluant des affinages largement déployés dans les domaines médical et juridique ainsi que des adaptations contrôlées de modèles de fondation ouverts comparés à leurs bases. Sur des benchmarks de sécurité généralistes et spécialisés, nous constatons que l'affinage bénin induit des changements importants, hétérogènes et souvent contradictoires dans la sécurité mesurée : les modèles s'améliorent fréquemment sur certains instruments tout en se dégradant sur d'autres, avec des divergences substantielles entre les évaluations. Ces résultats montrent que le comportement sécuritaire n'est pas stable sous une adaptation aval ordinaire, soulevant des questions cruciales concernant la gouvernance et les pratiques de déploiement centrées sur les évaluations des modèles de base. Sans réévaluation explicite des modèles affinés dans des contextes pertinents pour le déploiement, ces approches échouent à gérer adéquatement les risques en aval, négligeant des sources pratiques de préjudice – des échecs particulièrement conséquents dans des contextes à haut risque qui remettent en cause les paradigmes actuels de responsabilisation.
English
Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.