FuseChat: Wissensfusion von Chat-Modellen
FuseChat: Knowledge Fusion of Chat Models
August 15, 2024
Autoren: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
cs.AI
Zusammenfassung
Das Training großer Sprachmodelle (LLMs) von Grund auf kann tatsächlich zu Modellen mit unterschiedlichen Fähigkeiten und Stärken führen, jedoch geht dies mit erheblichen Kosten einher und kann zu Redundanzen in den Kompetenzen führen. Das Ziel der Wissensfusion ist es, bestehende LLMs mit unterschiedlichen Architekturen und Fähigkeiten durch ein leichtgewichtiges kontinuierliches Training in ein leistungsfähigeres LLM zu integrieren, wodurch die Notwendigkeit für kostspielige LLM-Entwicklung reduziert wird. In dieser Arbeit schlagen wir ein neues Framework für die Wissensfusion von Chat-LLMs in zwei Hauptstufen vor, was zu FuseChat führt. Zunächst führen wir eine paarweise Wissensfusion bei Ausgangs-Chat-LLMs mit unterschiedlichen Strukturen und Maßstäben durch, um mehrere Ziel-LLMs mit identischer Struktur und Größe durch leichtgewichtiges Feintuning zu erstellen. Während dieses Prozesses wird ein statistikbasiertes Token-Alignmentsverfahren als Grundlage zur Fusion von LLMs mit unterschiedlichen Strukturen eingeführt. Zweitens verschmelzen wir diese Ziel-LLMs im Parameterbereich, wobei wir eine neuartige Methode zur Bestimmung der Verschmelzungskoeffizienten basierend auf der Größenordnung der Parameteraktualisierungen vor und nach dem Feintuning vorschlagen. Wir implementieren und validieren FuseChat unter Verwendung von sechs prominenten Chat-LLMs mit unterschiedlichen Architekturen und Maßstäben, darunter OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct und Qwen-1.5-Chat-72B. Experimentelle Ergebnisse zu zwei Anweisungsfolge-Benchmarks, AlpacaEval 2.0 und MT-Bench, zeigen die Überlegenheit von FuseChat-7B gegenüber Baselines verschiedener Größen. Unser Modell ist sogar vergleichbar mit dem größeren Mixtral-8x7B-Instruct und nähert sich GPT-3.5-Turbo-1106 auf MT-Bench an. Unser Code, Modellgewichte und Daten sind öffentlich zugänglich unter https://github.com/fanqiwan/FuseAI.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, it incurs substantial costs
and may lead to redundancy in competencies. Knowledge fusion aims to integrate
existing LLMs of diverse architectures and capabilities into a more potent LLM
through lightweight continual training, thereby reducing the need for costly
LLM development. In this work, we propose a new framework for the knowledge
fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we
conduct pairwise knowledge fusion on source chat LLMs of varying structures and
scales to create multiple target LLMs with identical structure and size via
lightweight fine-tuning. During this process, a statistics-based token
alignment approach is introduced as the cornerstone for fusing LLMs with
different structures. Secondly, we merge these target LLMs within the parameter
space, where we propose a novel method for determining the merging coefficients
based on the magnitude of parameter updates before and after fine-tuning. We
implement and validate FuseChat using six prominent chat LLMs with diverse
architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha,
NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and
Qwen-1.5-Chat-72B. Experimental results on two instruction-following
benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of
FuseChat-7B over baselines of various sizes. Our model is even comparable to
the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench.
Our code, model weights, and data are public at
https://github.com/fanqiwan/FuseAI.Summary
AI-Generated Summary