FuseChat: Fusione della Conoscenza nei Modelli di Chat

Abstract

Mentre l'addestramento di grandi modelli linguistici (LLM) da zero può effettivamente portare a modelli con capacità e punti di forza distinti, questo approccio comporta costi sostanziali e può portare a una potenziale ridondanza nelle competenze. Una strategia alternativa è combinare LLM esistenti in un LLM più robusto, riducendo così la necessità di un costoso pre-addestramento. Tuttavia, a causa delle diverse architetture degli LLM, la fusione diretta dei parametri si rivela impraticabile. Recentemente, FuseLLM ha introdotto il concetto di fusione della conoscenza per trasferire il sapere collettivo di più LLM strutturalmente variati in un LLM target attraverso un addestramento continuo leggero. In questo rapporto, estendiamo la scalabilità e la flessibilità del framework FuseLLM per realizzare la fusione di LLM di chat, dando vita a FuseChat. FuseChat comprende due fasi principali. In primo luogo, eseguiamo la fusione della conoscenza per LLM sorgente con strutture e dimensioni variate, ottenendo così più LLM target con struttura e dimensione identiche attraverso un fine-tuning leggero. Successivamente, questi LLM target vengono fusi nello spazio dei parametri, dove proponiamo un metodo innovativo per determinare i pesi di fusione basato sul rapporto di variazione delle matrici dei parametri prima e dopo il fine-tuning. Validiamo il nostro approccio utilizzando tre importanti LLM di chat con architetture e dimensioni diverse, ovvero NH2-Mixtral-8x7B, NH2-Solar-10.7B e OpenChat-3.5-7B. I risultati sperimentali in vari domini di chat dimostrano la superiorità di \textsc{FuseChat-7B} rispetto a un'ampia gamma di LLM di chat alle scale 7B e 34B, superando persino GPT-3.5 (marzo) e avvicinandosi a Mixtral-8x7B-Instruct. Il nostro codice, i pesi del modello e i dati sono accessibili pubblicamente all'indirizzo https://github.com/fanqiwan/FuseLLM.

English

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of \textsc{FuseChat-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at https://github.com/fanqiwan/FuseLLM.

FuseChat: Fusione della Conoscenza nei Modelli di Chat

FuseChat: Knowledge Fusion of Chat Models

Abstract

Support