Proteger LLMs Ajustados Fino a Través de la Fusión de Modelos de Ajuste Pre y Posterior

Resumen

El ajuste fino de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para tareas posteriores es un enfoque ampliamente adoptado, pero a menudo conduce a una degradación de la seguridad en LLMs alineados con la seguridad. Actualmente, muchas soluciones abordan este problema incorporando datos de seguridad adicionales, lo cual puede ser impráctico en muchos casos. En este documento, abordamos la pregunta: ¿Cómo podemos mejorar el rendimiento de las tareas posteriores preservando la seguridad en LLMs sin depender de datos de seguridad adicionales? Proponemos un método simple y efectivo que mantiene la seguridad inherente de los LLMs mientras mejora el rendimiento de sus tareas posteriores: fusionar los pesos de modelos alineados con la seguridad pre y post-ajuste fino. Los resultados experimentales en diversas tareas posteriores, modelos y métodos de fusión demuestran que este enfoque mitiga efectivamente la degradación de la seguridad al tiempo que mejora el rendimiento de las tareas posteriores, ofreciendo una solución práctica para adaptar LLMs alineados con la seguridad.

English

Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.

Proteger LLMs Ajustados Fino a Través de la Fusión de Modelos de Ajuste Pre y Posterior

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Resumen

Support