FuseChat: Fusione della Conoscenza nei Modelli di Chat
FuseChat: Knowledge Fusion of Chat Models
February 25, 2024
Autori: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi
cs.AI
Abstract
Mentre l'addestramento di grandi modelli linguistici (LLM) da zero può effettivamente portare a modelli con capacità e punti di forza distinti, questo approccio comporta costi sostanziali e può portare a una potenziale ridondanza nelle competenze. Una strategia alternativa è combinare LLM esistenti in un LLM più robusto, riducendo così la necessità di un costoso pre-addestramento. Tuttavia, a causa delle diverse architetture degli LLM, la fusione diretta dei parametri si rivela impraticabile. Recentemente, FuseLLM ha introdotto il concetto di fusione della conoscenza per trasferire il sapere collettivo di più LLM strutturalmente variati in un LLM target attraverso un addestramento continuo leggero. In questo rapporto, estendiamo la scalabilità e la flessibilità del framework FuseLLM per realizzare la fusione di LLM di chat, dando vita a FuseChat.
FuseChat comprende due fasi principali. In primo luogo, eseguiamo la fusione della conoscenza per LLM sorgente con strutture e dimensioni variate, ottenendo così più LLM target con struttura e dimensione identiche attraverso un fine-tuning leggero. Successivamente, questi LLM target vengono fusi nello spazio dei parametri, dove proponiamo un metodo innovativo per determinare i pesi di fusione basato sul rapporto di variazione delle matrici dei parametri prima e dopo il fine-tuning. Validiamo il nostro approccio utilizzando tre importanti LLM di chat con architetture e dimensioni diverse, ovvero NH2-Mixtral-8x7B, NH2-Solar-10.7B e OpenChat-3.5-7B. I risultati sperimentali in vari domini di chat dimostrano la superiorità di \textsc{FuseChat-7B} rispetto a un'ampia gamma di LLM di chat alle scale 7B e 34B, superando persino GPT-3.5 (marzo) e avvicinandosi a Mixtral-8x7B-Instruct. Il nostro codice, i pesi del modello e i dati sono accessibili pubblicamente all'indirizzo https://github.com/fanqiwan/FuseLLM.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, this approach incurs
substantial costs and may lead to potential redundancy in competencies. An
alternative strategy is to combine existing LLMs into a more robust LLM,
thereby diminishing the necessity for expensive pre-training. However, due to
the diverse architectures of LLMs, direct parameter blending proves to be
unfeasible. Recently, FuseLLM introduced the concept of knowledge
fusion to transfer the collective knowledge of multiple structurally varied
LLMs into a target LLM through lightweight continual training. In this report,
we extend the scalability and flexibility of the FuseLLM framework to
realize the fusion of chat LLMs, resulting in FuseChat.
FuseChat comprises two main stages. Firstly, we undertake knowledge
fusion for structurally and scale-varied source LLMs to derive multiple target
LLMs of identical structure and size via lightweight fine-tuning. Then, these
target LLMs are merged within the parameter space, wherein we propose a novel
method for determining the merging weights based on the variation ratio of
parameter matrices before and after fine-tuning. We validate our approach using
three prominent chat LLMs with diverse architectures and scales, namely
NH2-Mixtral-8x7B, NH2-Solar-10.7B, and
OpenChat-3.5-7B. Experimental results spanning various chat domains
demonstrate the superiority of \textsc{FuseChat-7B} across a broad
spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5
(March) and approaching Mixtral-8x7B-Instruct. Our code, model
weights, and data are openly accessible at
https://github.com/fanqiwan/FuseLLM.