FuseChat: Fusione della Conoscenza nei Modelli di Chat
FuseChat: Knowledge Fusion of Chat Models
August 15, 2024
Autori: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
cs.AI
Abstract
Mentre l'addestramento di grandi modelli linguistici (LLM) da zero può effettivamente portare a modelli con capacità e punti di forza distinti, comporta costi sostanziali e può generare ridondanza nelle competenze. La fusione della conoscenza mira a integrare LLM esistenti con architetture e capacità diverse in un LLM più potente attraverso un addestramento continuo leggero, riducendo così la necessità di sviluppare LLM costosi. In questo lavoro, proponiamo un nuovo framework per la fusione della conoscenza di LLM per chat attraverso due fasi principali, dando vita a FuseChat. In primo luogo, eseguiamo una fusione della conoscenza a coppie su LLM per chat sorgente con strutture e dimensioni variabili per creare più LLM target con struttura e dimensione identiche tramite un fine-tuning leggero. Durante questo processo, introduciamo un approccio di allineamento dei token basato su statistiche come elemento fondamentale per fondere LLM con strutture diverse. In secondo luogo, uniamo questi LLM target nello spazio dei parametri, dove proponiamo un metodo innovativo per determinare i coefficienti di fusione basati sull'entità degli aggiornamenti dei parametri prima e dopo il fine-tuning. Implementiamo e validiamo FuseChat utilizzando sei importanti LLM per chat con architetture e dimensioni diverse, tra cui OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct e Qwen-1.5-Chat-72B. I risultati sperimentali su due benchmark di esecuzione di istruzioni, AlpacaEval 2.0 e MT-Bench, dimostrano la superiorità di FuseChat-7B rispetto ai modelli di riferimento di varie dimensioni. Il nostro modello è persino paragonabile al più grande Mixtral-8x7B-Instruct e si avvicina a GPT-3.5-Turbo-1106 su MT-Bench. Il nostro codice, i pesi del modello e i dati sono pubblici all'indirizzo https://github.com/fanqiwan/FuseAI.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, it incurs substantial costs
and may lead to redundancy in competencies. Knowledge fusion aims to integrate
existing LLMs of diverse architectures and capabilities into a more potent LLM
through lightweight continual training, thereby reducing the need for costly
LLM development. In this work, we propose a new framework for the knowledge
fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we
conduct pairwise knowledge fusion on source chat LLMs of varying structures and
scales to create multiple target LLMs with identical structure and size via
lightweight fine-tuning. During this process, a statistics-based token
alignment approach is introduced as the cornerstone for fusing LLMs with
different structures. Secondly, we merge these target LLMs within the parameter
space, where we propose a novel method for determining the merging coefficients
based on the magnitude of parameter updates before and after fine-tuning. We
implement and validate FuseChat using six prominent chat LLMs with diverse
architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha,
NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and
Qwen-1.5-Chat-72B. Experimental results on two instruction-following
benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of
FuseChat-7B over baselines of various sizes. Our model is even comparable to
the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench.
Our code, model weights, and data are public at
https://github.com/fanqiwan/FuseAI.