Sicherheitsdrift nach dem Feinabstimmen: Belege aus hochriskanten Anwendungsbereichen

Zusammenfassung

Foundation Models werden routinemäßig für den Einsatz in bestimmten Domänen feinabgestimmt, doch Sicherheitsbewertungen werden typischerweise nur an Basis-Modellen durchgeführt. Dabei wird implizit angenommen, dass die Sicherheitseigenschaften bei der nachgelagerten Anpassung erhalten bleiben. Wir überprüfen diese Annahme, indem wir das Sicherheitsverhalten von 100 Modellen analysieren, darunter weit verbreitete Feinabstimmungen aus den medizinischen und juristischen Bereichen sowie kontrollierte Adaptationen offener Foundation Models neben ihren Basisversionen. In sowohl allgemeinen als auch domänenspezifischen Sicherheitsbenchmarks stellen wir fest, dass gutartige Feinabstimmung große, heterogene und oft widersprüchliche Veränderungen im gemessenen Sicherheitsverhalten bewirkt: Modelle verbessern sich häufig bei einigen Tests, während sie sich bei anderen verschlechtern, mit erheblichen Diskrepanzen zwischen den Bewertungen. Diese Ergebnisse zeigen, dass sich das Sicherheitsverhalten unter gewöhnlicher nachgelagerter Anpassung nicht stabil verhält, was kritische Fragen zu Governance- und Bereitstellungspraktiken aufwirft, die sich auf Basis-Modell-Bewertungen konzentrieren. Ohne explizite Neubewertung feinabgestimmter Modelle in bereitstellungsrelevanten Kontexten sind solche Ansätze unzureichend, um das nachgelagerte Risiko angemessen zu managen, und übersehen praktische Schadensquellen – Versäumnisse, die besonders in hochriskanten Umgebungen folgenreich sind und die derzeitigen Rechenschaftsparadigmen in Frage stellen.

English

Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.

Sicherheitsdrift nach dem Feinabstimmen: Belege aus hochriskanten Anwendungsbereichen

Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

Zusammenfassung

Support