FuseChat : Fusion des connaissances des modèles de conversation

papers.abstract

Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cette approche engendre des coûts substantiels et peut entraîner une redondance potentielle dans les compétences. Une stratégie alternative consiste à combiner des LLM existants en un LLM plus robuste, réduisant ainsi la nécessité d'un pré-entraînement coûteux. Cependant, en raison de la diversité des architectures des LLM, la fusion directe des paramètres s'avère irréalisable. Récemment, FuseLLM a introduit le concept de fusion de connaissances pour transférer le savoir collectif de plusieurs LLM structurellement variés vers un LLM cible via un entraînement continu léger. Dans ce rapport, nous étendons l'évolutivité et la flexibilité du cadre FuseLLM pour réaliser la fusion de LLM de chat, aboutissant à FuseChat. FuseChat comprend deux étapes principales. Premièrement, nous effectuons une fusion de connaissances pour des LLM sources de structures et de tailles variées afin de dériver plusieurs LLM cibles de structure et de taille identiques via un ajustement fin léger. Ensuite, ces LLM cibles sont fusionnés dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les poids de fusion basée sur le ratio de variation des matrices de paramètres avant et après l'ajustement fin. Nous validons notre approche en utilisant trois LLM de chat de premier plan avec des architectures et des échelles diverses, à savoir NH2-Mixtral-8x7B, NH2-Solar-10.7B et OpenChat-3.5-7B. Les résultats expérimentaux couvrant divers domaines de chat démontrent la supériorité de \textsc{FuseChat-7B} sur un large spectre de LLM de chat aux échelles de 7B et 34B, surpassant même GPT-3.5 (mars) et approchant Mixtral-8x7B-Instruct. Notre code, les poids des modèles et les données sont librement accessibles à l'adresse https://github.com/fanqiwan/FuseLLM.

English

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of \textsc{FuseChat-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at https://github.com/fanqiwan/FuseLLM.

FuseChat : Fusion des connaissances des modèles de conversation

FuseChat: Knowledge Fusion of Chat Models

papers.abstract

Support