Дрейф безопасности после тонкой настройки: данные из областей с высокими рисками

Аннотация

Базовые модели регулярно дообучаются для применения в конкретных областях, однако оценка безопасности обычно проводится только на исходных моделях, что подразумевает предположение о сохранении свойств безопасности при последующей адаптации. Мы проверяем это предположение, анализируя поведение в контексте безопасности 100 моделей, включая широко используемые дообученные версии в медицинской и юридической сферах, а также контролируемые адаптации открытых базовых моделей вместе с их исходными версиями. На общецелевых и предметно-ориентированных тестах безопасности мы обнаруживаем, что доброкачественное дообучение вызывает значительные, разнородные и зачастую противоречивые изменения в измеряемой безопасности: модели часто улучшаются по одним критериям, одновременно ухудшаясь по другим, при этом наблюдается существенное расхождение между результатами оценок. Эти результаты демонстрируют, что поведение в аспекте безопасности не является стабильным при стандартной последующей адаптации, что ставит критические вопросы о подходах к управлению и внедрению, сфокусированных на оценке базовых моделей. Без явной переоценки дообученных моделей в контекстах, релевантных для развертывания, такие подходы не позволяют адекватно управлять рисками на последующих этапах, упуская из виду практические источники вреда — недостатки, которые особенно значимы в условиях высокой ответственности и ставят под сомнение современные парадигмы подотчетности.

English

Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.

Дрейф безопасности после тонкой настройки: данные из областей с высокими рисками

Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

Аннотация

Support