ChatPaper.aiChatPaper

Обеспечение безопасности тонко настроенных LLM с помощью объединения моделей до и после настройки.

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

December 27, 2024
Авторы: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI

Аннотация

Калибровка больших языковых моделей (LLM) для последующих задач широко применяется, но часто приводит к ухудшению безопасности в моделях, ориентированных на безопасность. В настоящее время множество решений решают эту проблему путем включения дополнительных данных о безопасности, что может быть непрактично во многих случаях. В данной статье мы рассматриваем вопрос: Как можно улучшить производительность последующих задач, сохраняя при этом безопасность в LLM без использования дополнительных данных о безопасности? Мы предлагаем простой и эффективный метод, который сохраняет врожденную безопасность LLM, улучшая при этом их производительность в последующих задачах: объединение весов предварительно и после калибровки моделей, ориентированных на безопасность. Экспериментальные результаты по различным последующим задачам, моделям и методам объединения демонстрируют, что этот подход эффективно смягчает ухудшение безопасности, улучшая производительность в последующих задачах и предлагая практическое решение для адаптации LLM, ориентированных на безопасность.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.

Summary

AI-Generated Summary

PDF82December 30, 2024