Deriva de la Seguridad Tras el Ajuste Fino: Evidencia de Dominios de Alto Riesgo

Resumen

Los modelos base suelen ajustarse para su uso en dominios particulares, sin embargo las evaluaciones de seguridad normalmente se realizan únicamente en los modelos base, asumiendo implícitamente que las propiedades de seguridad se mantienen tras la adaptación descendente. Pusimos a prueba esta suposición analizando el comportamiento de seguridad de 100 modelos, incluyendo ajustes ampliamente implementados en los dominios médico y legal, así como adaptaciones controladas de modelos base abiertos junto con sus versiones originales. A través de evaluaciones comparativas de seguridad tanto de propósito general como específicas de dominio, encontramos que el ajuste fino benigno induce cambios grandes, heterogéneos y frecuentemente contradictorios en la seguridad medida: los modelos a menudo mejoran en algunos instrumentos mientras se degradan en otros, con un desacuerdo sustancial entre evaluaciones. Estos resultados demuestran que el comportamiento de seguridad no es estable bajo una adaptación descendente ordinaria, planteando interrogantes críticas sobre las prácticas de gobernanza y despliegue centradas en evaluaciones de modelos base. Sin una reevaluación explícita de los modelos ajustados en contextos relevantes para el despliegue, tales enfoques resultan insuficientes para gestionar adecuadamente el riesgo descendente, pasando por alto fuentes prácticas de daño —fallos que son especialmente consecuentes en entornos de alto riesgo y que desafían los paradigmas actuales de responsabilidad.

English

Foundation models are routinely fine-tuned for use in particular domains, yet safety assessments are typically conducted only on base models, implicitly assuming that safety properties persist through downstream adaptation. We test this assumption by analyzing the safety behavior of 100 models, including widely deployed fine-tunes in the medical and legal domains as well as controlled adaptations of open foundation models alongside their bases. Across general-purpose and domain-specific safety benchmarks, we find that benign fine-tuning induces large, heterogeneous, and often contradictory changes in measured safety: models frequently improve on some instruments while degrading on others, with substantial disagreement across evaluations. These results show that safety behavior is not stable under ordinary downstream adaptation, raising critical questions about governance and deployment practices centered on base-model evaluations. Without explicit re-evaluation of fine-tuned models in deployment-relevant contexts, such approaches fall short of adequately managing downstream risk, overlooking practical sources of harm -- failures that are especially consequential in high-stakes settings and challenge current accountability paradigms.

Deriva de la Seguridad Tras el Ajuste Fino: Evidencia de Dominios de Alto Riesgo

Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

Resumen

Support