Proteger LLMs Ajustados Fino a Través de la Fusión de Modelos de Ajuste Pre y Posterior
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
December 27, 2024
Autores: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI
Resumen
El ajuste fino de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para tareas posteriores es un enfoque ampliamente adoptado, pero a menudo conduce a una degradación de la seguridad en LLMs alineados con la seguridad. Actualmente, muchas soluciones abordan este problema incorporando datos de seguridad adicionales, lo cual puede ser impráctico en muchos casos. En este documento, abordamos la pregunta: ¿Cómo podemos mejorar el rendimiento de las tareas posteriores preservando la seguridad en LLMs sin depender de datos de seguridad adicionales? Proponemos un método simple y efectivo que mantiene la seguridad inherente de los LLMs mientras mejora el rendimiento de sus tareas posteriores: fusionar los pesos de modelos alineados con la seguridad pre y post-ajuste fino. Los resultados experimentales en diversas tareas posteriores, modelos y métodos de fusión demuestran que este enfoque mitiga efectivamente la degradación de la seguridad al tiempo que mejora el rendimiento de las tareas posteriores, ofreciendo una solución práctica para adaptar LLMs alineados con la seguridad.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely
adopted approach, but it often leads to safety degradation in safety-aligned
LLMs. Currently, many solutions address this issue by incorporating additional
safety data, which can be impractical in many cases. In this paper, we address
the question: How can we improve downstream task performance while preserving
safety in LLMs without relying on additional safety data? We propose a simple
and effective method that maintains the inherent safety of LLMs while enhancing
their downstream task performance: merging the weights of pre- and
post-fine-tuned safety-aligned models. Experimental results across various
downstream tasks, models, and merging methods demonstrate that this approach
effectively mitigates safety degradation while improving downstream task
performance, offering a practical solution for adapting safety-aligned LLMs.Summary
AI-Generated Summary