FuseChat: Kennisintegratie van Chatmodellen

Samenvatting

Hoewel het trainen van grote taalmodellen (LLMs) vanaf nul inderdaad kan leiden tot modellen met unieke capaciteiten en sterke punten, brengt dit aanzienlijke kosten met zich mee en kan het redundantie in competenties veroorzaken. Kennisfusie heeft als doel bestaande LLMs met diverse architecturen en capaciteiten te integreren tot een krachtiger LLM door middel van lichtgewicht voortgezette training, waardoor de noodzaak voor kostbare LLM-ontwikkeling wordt verminderd. In dit werk stellen we een nieuw framework voor voor de kennisfusie van chat-LLMs via twee hoofdstadia, wat resulteert in FuseChat. Ten eerste voeren we paarsgewijze kennisfusie uit op bron-chat-LLMs met verschillende structuren en schalen om meerdere doel-LLMs met identieke structuur en grootte te creëren via lichtgewicht fine-tuning. Tijdens dit proces wordt een op statistieken gebaseerde tokenuitlijningsbenadering geïntroduceerd als hoeksteen voor het fuseren van LLMs met verschillende structuren. Ten tweede voegen we deze doel-LLMs samen binnen de parameterruimte, waarbij we een nieuwe methode voorstellen om de samenvoegingscoëfficiënten te bepalen op basis van de omvang van parameterupdates voor en na fine-tuning. We implementeren en valideren FuseChat met zes prominente chat-LLMs met diverse architecturen en schalen, waaronder OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct en Qwen-1.5-Chat-72B. Experimentele resultaten op twee instructievolgende benchmarks, AlpacaEval 2.0 en MT-Bench, tonen de superioriteit van FuseChat-7B aan ten opzichte van baseline-modellen van verschillende groottes. Ons model is zelfs vergelijkbaar met het grotere Mixtral-8x7B-Instruct en benadert GPT-3.5-Turbo-1106 op MT-Bench. Onze code, modelgewichten en gegevens zijn openbaar beschikbaar op https://github.com/fanqiwan/FuseAI.

English

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at https://github.com/fanqiwan/FuseAI.

FuseChat: Kennisintegratie van Chatmodellen

FuseChat: Knowledge Fusion of Chat Models

Samenvatting

Support