FuseChat-3.0: Voorkeursoptimalisatie ontmoet heterogene modelfusie

Samenvatting

We introduceren FuseChat-3.0, een suite van grote taalmodelen (LLMs) ontwikkeld door de sterke punten van heterogene bron-LLMs te integreren in compactere doel-LLMs. Onze bronmodellen omvatten de krachtige Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct en Llama-3.1-70B-Instruct. Voor de doelmodellen richten we ons op drie veelgebruikte kleinere varianten—Llama-3.1-8B-Instruct, Gemma-2-9B-it en Qwen-2.5-7B-Instruct—samen met twee ultra-compacte opties, Llama-3.2-3B-Instruct en Llama-3.2-1B-Instruct. Om de diverse mogelijkheden van deze bronmodellen te benutten, ontwikkelen we een gespecialiseerd protocol voor dataconstructie, afgestemd op verschillende taken en domeinen. De trainingspijplijn van FuseChat-3.0 bestaat uit twee belangrijke fasen: (1) supervised fine-tuning (SFT) om de distributies van het doel- en bronmodel af te stemmen, en (2) Direct Preference Optimization (DPO) om voorkeuren van meerdere bron-LLMs toe te passen voor het finetunen van het doelmodel. De resulterende FuseChat-3.0-modellen vertonen aanzienlijke prestatieverbeteringen op taken zoals instructievolging, algemene kennis, wiskunde en programmeren. Zoals geïllustreerd in Figuur 1, bereikt onze fusieaanpak met Llama-3.1-8B-Instruct als doelmodel een gemiddelde verbetering van 6,8 punten over 14 benchmarks. Bovendien toont het opmerkelijke verbeteringen van 37,1 punten en 30,1 punten op de instructievolging-benchmarks AlpacaEval-2 en Arena-Hard, respectievelijk. Onze code, modellen en datasets zijn beschikbaar op https://github.com/SLIT-AI/FuseChat-3.0.

English

We introduce FuseChat-3.0, a suite of large language models (LLMs) developed by integrating the strengths of heterogeneous source LLMs into more compact target LLMs. Our source models include the powerful Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct, and Llama-3.1-70B-Instruct. For target models, we focus on three widely-used smaller variants-Llama-3.1-8B-Instruct, Gemma-2-9B-it, and Qwen-2.5-7B-Instruct-along with two ultra-compact options, Llama-3.2-3B-Instruct and Llama-3.2-1B-Instruct. To leverage the diverse capabilities of these source models, we develop a specialized data construction protocol tailored to various tasks and domains. The FuseChat-3.0 training pipeline consists of two key stages: (1) supervised fine-tuning (SFT) to align the target and source model distributions, and (2) Direct Preference Optimization (DPO) to apply preferences from multiple source LLMs to fine-tune the target model. The resulting FuseChat-3.0 models exhibit significant performance gains across tasks such as instruction following, general knowledge, mathematics, and coding. As illustrated in Figure 1, using Llama-3.1-8B-Instruct as the target model, our fusion approach achieves an average improvement of 6.8 points across 14 benchmarks. Moreover, it demonstrates remarkable gains of 37.1 points and 30.1 points on the instruction-following benchmarks AlpacaEval-2 and Arena-Hard, respectively. Our code, models, and datasets are available at https://github.com/SLIT-AI/FuseChat-3.0.

FuseChat-3.0: Voorkeursoptimalisatie ontmoet heterogene modelfusie

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Samenvatting

Support