ChatPaper.aiChatPaper

Fusion de modèles et alignement de sécurité : Un mauvais modèle gâche l'ensemble

Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

June 20, 2024
Auteurs: Hasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay
cs.AI

Résumé

La fusion de grands modèles de langage (LLM) est une technique rentable pour combiner plusieurs LLM experts en un seul modèle polyvalent, tout en conservant l'expertise des modèles originaux. Cependant, les approches actuelles négligent souvent l'importance de l'alignement en matière de sécurité lors de la fusion, ce qui conduit à des modèles fortement désalignés. Ce travail étudie les effets de la fusion de modèles sur l'alignement. Nous évaluons plusieurs techniques populaires de fusion de modèles, démontrant que les méthodes existantes ne transfèrent pas seulement l'expertise du domaine, mais propagent également le désalignement. Nous proposons une approche simple en deux étapes pour résoudre ce problème : (i) générer des données synthétiques liées à la sécurité et spécifiques au domaine, et (ii) intégrer ces données générées dans le processus d'optimisation des techniques de fusion de modèles existantes qui prennent en compte les données. Cela nous permet de traiter l'alignement comme une compétence qui peut être maximisée dans le LLM fusionné résultant. Nos expériences illustrent l'efficacité de l'intégration de données liées à l'alignement lors de la fusion, produisant des modèles qui excellent à la fois en expertise du domaine et en alignement.
English
Merging Large Language Models (LLMs) is a cost-effective technique for combining multiple expert LLMs into a single versatile model, retaining the expertise of the original ones. However, current approaches often overlook the importance of safety alignment during merging, leading to highly misaligned models. This work investigates the effects of model merging on alignment. We evaluate several popular model merging techniques, demonstrating that existing methods do not only transfer domain expertise but also propagate misalignment. We propose a simple two-step approach to address this problem: (i) generating synthetic safety and domain-specific data, and (ii) incorporating these generated data into the optimization process of existing data-aware model merging techniques. This allows us to treat alignment as a skill that can be maximized in the resulting merged LLM. Our experiments illustrate the effectiveness of integrating alignment-related data during merging, resulting in models that excel in both domain expertise and alignment.

Summary

AI-Generated Summary

PDF311December 2, 2024