미세 조정 후 안전성 저하: 고위험 분야에서의 증거
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains
April 27, 2026
저자: Emaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell
cs.AI
초록
파운데이션 모델은 특정 도메인에서 사용하기 위해 정기적으로 미세 조정되지만, 안전성 평가는 일반적으로 기본 모델에 대해서만 수행되며, 이는 하위스트림 적응 과정을 거쳐도 안전성 속성이 유지된다는 가정을 암묵적으로 전제합니다. 본 연구에서는 이러한 가정을 검증하기 위해 의료 및 법률 분야에서 널리 배포된 미세 조정 모델과 오픈 파운데이션 모델의 통제된 적응 모델 및 해당 기본 모델을 포함한 100개 모델의 안전성 행동을 분석했습니다. 일반 목적 및 도메인 특화 안전성 벤치마크를 종합한 결과, 양성 미세 조정은 측정된 안전성에 크고 이질적이며 종종 상반된 변화를 유도하는 것으로 나타났습니다. 모델들은 일부 평가 도구에서는 개선되는 동시에 다른 도구에서는 악화되는 경우가 빈번했으며, 평가 간 상당한 불일치가 관찰되었습니다. 이러한 결과는 일반적인 하위스트림 적응 하에서 안전성 행동이 안정적으로 유지되지 않음을 보여주며, 기본 모델 평가에 중점을 둔 거버넌스 및 배포 관행에 중요한 의문을 제기합니다. 배포와 관련된 맥락에서 미세 조정된 모델에 대한 명시적인 재평가 없이는 이러한 접근법은 하위스트림 위험을 적절히 관리하지 못하며, 실제 피해 원인을 간과하게 됩니다. 이러한 실패는 특히 위험도가 높은 환경에서 중대한 결과를 초래하며, 현재의 책임성 패러다임에 도전하는 과제입니다.
English
Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.