FuseChat: Wissensfusion von Chat-Modellen

papers.abstract

Das Training großer Sprachmodelle (LLMs) von Grund auf kann tatsächlich zu Modellen mit unterschiedlichen Fähigkeiten und Stärken führen, jedoch geht dies mit erheblichen Kosten einher und kann zu Redundanzen in den Kompetenzen führen. Das Ziel der Wissensfusion ist es, bestehende LLMs mit unterschiedlichen Architekturen und Fähigkeiten durch ein leichtgewichtiges kontinuierliches Training in ein leistungsfähigeres LLM zu integrieren, wodurch die Notwendigkeit für kostspielige LLM-Entwicklung reduziert wird. In dieser Arbeit schlagen wir ein neues Framework für die Wissensfusion von Chat-LLMs in zwei Hauptstufen vor, was zu FuseChat führt. Zunächst führen wir eine paarweise Wissensfusion bei Ausgangs-Chat-LLMs mit unterschiedlichen Strukturen und Maßstäben durch, um mehrere Ziel-LLMs mit identischer Struktur und Größe durch leichtgewichtiges Feintuning zu erstellen. Während dieses Prozesses wird ein statistikbasiertes Token-Alignmentsverfahren als Grundlage zur Fusion von LLMs mit unterschiedlichen Strukturen eingeführt. Zweitens verschmelzen wir diese Ziel-LLMs im Parameterbereich, wobei wir eine neuartige Methode zur Bestimmung der Verschmelzungskoeffizienten basierend auf der Größenordnung der Parameteraktualisierungen vor und nach dem Feintuning vorschlagen. Wir implementieren und validieren FuseChat unter Verwendung von sechs prominenten Chat-LLMs mit unterschiedlichen Architekturen und Maßstäben, darunter OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct und Qwen-1.5-Chat-72B. Experimentelle Ergebnisse zu zwei Anweisungsfolge-Benchmarks, AlpacaEval 2.0 und MT-Bench, zeigen die Überlegenheit von FuseChat-7B gegenüber Baselines verschiedener Größen. Unser Modell ist sogar vergleichbar mit dem größeren Mixtral-8x7B-Instruct und nähert sich GPT-3.5-Turbo-1106 auf MT-Bench an. Unser Code, Modellgewichte und Daten sind öffentlich zugänglich unter https://github.com/fanqiwan/FuseAI.

English

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at https://github.com/fanqiwan/FuseAI.

FuseChat: Wissensfusion von Chat-Modellen

FuseChat: Knowledge Fusion of Chat Models

papers.abstract

Support