FuseChat : Fusion des connaissances des modèles de conversation
FuseChat: Knowledge Fusion of Chat Models
February 25, 2024
Auteurs: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi
cs.AI
Résumé
Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cette approche engendre des coûts substantiels et peut entraîner une redondance potentielle dans les compétences. Une stratégie alternative consiste à combiner des LLM existants en un LLM plus robuste, réduisant ainsi la nécessité d'un pré-entraînement coûteux. Cependant, en raison de la diversité des architectures des LLM, la fusion directe des paramètres s'avère irréalisable. Récemment, FuseLLM a introduit le concept de fusion de connaissances pour transférer le savoir collectif de plusieurs LLM structurellement variés vers un LLM cible via un entraînement continu léger. Dans ce rapport, nous étendons l'évolutivité et la flexibilité du cadre FuseLLM pour réaliser la fusion de LLM de chat, aboutissant à FuseChat.
FuseChat comprend deux étapes principales. Premièrement, nous effectuons une fusion de connaissances pour des LLM sources de structures et de tailles variées afin de dériver plusieurs LLM cibles de structure et de taille identiques via un ajustement fin léger. Ensuite, ces LLM cibles sont fusionnés dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les poids de fusion basée sur le ratio de variation des matrices de paramètres avant et après l'ajustement fin. Nous validons notre approche en utilisant trois LLM de chat de premier plan avec des architectures et des échelles diverses, à savoir NH2-Mixtral-8x7B, NH2-Solar-10.7B et OpenChat-3.5-7B. Les résultats expérimentaux couvrant divers domaines de chat démontrent la supériorité de \textsc{FuseChat-7B} sur un large spectre de LLM de chat aux échelles de 7B et 34B, surpassant même GPT-3.5 (mars) et approchant Mixtral-8x7B-Instruct. Notre code, les poids des modèles et les données sont librement accessibles à l'adresse https://github.com/fanqiwan/FuseLLM.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, this approach incurs
substantial costs and may lead to potential redundancy in competencies. An
alternative strategy is to combine existing LLMs into a more robust LLM,
thereby diminishing the necessity for expensive pre-training. However, due to
the diverse architectures of LLMs, direct parameter blending proves to be
unfeasible. Recently, FuseLLM introduced the concept of knowledge
fusion to transfer the collective knowledge of multiple structurally varied
LLMs into a target LLM through lightweight continual training. In this report,
we extend the scalability and flexibility of the FuseLLM framework to
realize the fusion of chat LLMs, resulting in FuseChat.
FuseChat comprises two main stages. Firstly, we undertake knowledge
fusion for structurally and scale-varied source LLMs to derive multiple target
LLMs of identical structure and size via lightweight fine-tuning. Then, these
target LLMs are merged within the parameter space, wherein we propose a novel
method for determining the merging weights based on the variation ratio of
parameter matrices before and after fine-tuning. We validate our approach using
three prominent chat LLMs with diverse architectures and scales, namely
NH2-Mixtral-8x7B, NH2-Solar-10.7B, and
OpenChat-3.5-7B. Experimental results spanning various chat domains
demonstrate the superiority of \textsc{FuseChat-7B} across a broad
spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5
(March) and approaching Mixtral-8x7B-Instruct. Our code, model
weights, and data are openly accessible at
https://github.com/fanqiwan/FuseLLM.