FuseChat-3.0: Voorkeursoptimalisatie ontmoet heterogene modelfusie
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion
March 6, 2025
Auteurs: Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan
cs.AI
Samenvatting
We introduceren FuseChat-3.0, een suite van grote taalmodelen (LLMs) ontwikkeld door de sterke punten van heterogene bron-LLMs te integreren in compactere doel-LLMs. Onze bronmodellen omvatten de krachtige Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct en Llama-3.1-70B-Instruct. Voor de doelmodellen richten we ons op drie veelgebruikte kleinere varianten—Llama-3.1-8B-Instruct, Gemma-2-9B-it en Qwen-2.5-7B-Instruct—samen met twee ultra-compacte opties, Llama-3.2-3B-Instruct en Llama-3.2-1B-Instruct. Om de diverse mogelijkheden van deze bronmodellen te benutten, ontwikkelen we een gespecialiseerd protocol voor dataconstructie, afgestemd op verschillende taken en domeinen. De trainingspijplijn van FuseChat-3.0 bestaat uit twee belangrijke fasen: (1) supervised fine-tuning (SFT) om de distributies van het doel- en bronmodel af te stemmen, en (2) Direct Preference Optimization (DPO) om voorkeuren van meerdere bron-LLMs toe te passen voor het finetunen van het doelmodel. De resulterende FuseChat-3.0-modellen vertonen aanzienlijke prestatieverbeteringen op taken zoals instructievolging, algemene kennis, wiskunde en programmeren. Zoals geïllustreerd in Figuur 1, bereikt onze fusieaanpak met Llama-3.1-8B-Instruct als doelmodel een gemiddelde verbetering van 6,8 punten over 14 benchmarks. Bovendien toont het opmerkelijke verbeteringen van 37,1 punten en 30,1 punten op de instructievolging-benchmarks AlpacaEval-2 en Arena-Hard, respectievelijk. Onze code, modellen en datasets zijn beschikbaar op https://github.com/SLIT-AI/FuseChat-3.0.
English
We introduce FuseChat-3.0, a suite of large language models (LLMs) developed
by integrating the strengths of heterogeneous source LLMs into more compact
target LLMs. Our source models include the powerful Gemma-2-27B-it,
Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct, and Llama-3.1-70B-Instruct.
For target models, we focus on three widely-used smaller
variants-Llama-3.1-8B-Instruct, Gemma-2-9B-it, and Qwen-2.5-7B-Instruct-along
with two ultra-compact options, Llama-3.2-3B-Instruct and
Llama-3.2-1B-Instruct. To leverage the diverse capabilities of these source
models, we develop a specialized data construction protocol tailored to various
tasks and domains. The FuseChat-3.0 training pipeline consists of two key
stages: (1) supervised fine-tuning (SFT) to align the target and source model
distributions, and (2) Direct Preference Optimization (DPO) to apply
preferences from multiple source LLMs to fine-tune the target model. The
resulting FuseChat-3.0 models exhibit significant performance gains across
tasks such as instruction following, general knowledge, mathematics, and
coding. As illustrated in Figure 1, using Llama-3.1-8B-Instruct as the target
model, our fusion approach achieves an average improvement of 6.8 points across
14 benchmarks. Moreover, it demonstrates remarkable gains of 37.1 points and
30.1 points on the instruction-following benchmarks AlpacaEval-2 and
Arena-Hard, respectively. Our code, models, and datasets are available at
https://github.com/SLIT-AI/FuseChat-3.0.Summary
AI-Generated Summary