ChatPaper.aiChatPaper

FuseChat: Wissensfusion von Chat-Modellen

FuseChat: Knowledge Fusion of Chat Models

February 25, 2024
Autoren: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi
cs.AI

Zusammenfassung

Während das Training großer Sprachmodelle (LLMs) von Grund auf tatsächlich zu Modellen mit einzigartigen Fähigkeiten und Stärken führen kann, ist dieser Ansatz mit erheblichen Kosten verbunden und kann zu potenzieller Redundanz in den Kompetenzen führen. Eine alternative Strategie besteht darin, bestehende LLMs zu einem robusteren LLM zu kombinieren, wodurch die Notwendigkeit für teures Pre-Training verringert wird. Aufgrund der unterschiedlichen Architekturen von LLMs erweist sich jedoch eine direkte Parametervermischung als undurchführbar. Kürzlich hat FuseLLM das Konzept der Wissensfusion eingeführt, um das kollektive Wissen mehrerer strukturell unterschiedlicher LLMs durch leichtgewichtiges kontinuierliches Training in ein Ziel-LLM zu übertragen. In diesem Bericht erweitern wir die Skalierbarkeit und Flexibilität des FuseLLM-Frameworks, um die Fusion von Chat-LLMs zu realisieren, was zu FuseChat führt. FuseChat besteht aus zwei Hauptphasen. Zunächst führen wir eine Wissensfusion für strukturell und skalenmäßig unterschiedliche Quell-LLMs durch, um mehrere Ziel-LLMs mit identischer Struktur und Größe durch leichtgewichtiges Fine-Tuning zu erhalten. Anschließend werden diese Ziel-LLMs im Parameterraum zusammengeführt, wobei wir eine neuartige Methode zur Bestimmung der Gewichtung der Zusammenführung basierend auf dem Variationsverhältnis der Parametermatrizen vor und nach dem Fine-Tuning vorschlagen. Wir validieren unseren Ansatz mit drei prominenten Chat-LLMs mit unterschiedlichen Architekturen und Skalen, nämlich NH2-Mixtral-8x7B, NH2-Solar-10.7B und OpenChat-3.5-7B. Experimentelle Ergebnisse über verschiedene Chat-Domänen hinweg demonstrieren die Überlegenheit von \textsc{FuseChat-7B} im Vergleich zu einer breiten Palette von Chat-LLMs in den Skalen 7B und 34B, wobei es sogar GPT-3.5 (März) übertrifft und sich Mixtral-8x7B-Instruct annähert. Unser Code, Modellgewichte und Daten sind öffentlich zugänglich unter https://github.com/fanqiwan/FuseLLM.
English
While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of \textsc{FuseChat-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at https://github.com/fanqiwan/FuseLLM.
PDF414December 15, 2024