ChatPaper.aiChatPaper

FuseChat : Fusion des connaissances des modèles de conversation

FuseChat: Knowledge Fusion of Chat Models

August 15, 2024
Auteurs: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
cs.AI

Résumé

Bien que l'entraînement de grands modèles de langage (LLM) à partir de zéro puisse effectivement conduire à des modèles dotés de capacités et de forces distinctes, cela engendre des coûts substantiels et peut entraîner une redondance dans les compétences. La fusion de connaissances vise à intégrer des LLM existants de diverses architectures et capacités en un LLM plus puissant grâce à un entraînement continu léger, réduisant ainsi la nécessité d'un développement coûteux de LLM. Dans ce travail, nous proposons un nouveau cadre pour la fusion de connaissances de LLM conversationnels à travers deux étapes principales, aboutissant à FuseChat. Premièrement, nous effectuons une fusion de connaissances par paire sur des LLM conversationnels sources de structures et d'échelles variées pour créer plusieurs LLM cibles avec une structure et une taille identiques via un ajustement fin léger. Durant ce processus, une approche d'alignement de tokens basée sur des statistiques est introduite comme pierre angulaire pour fusionner des LLM de structures différentes. Deuxièmement, nous fusionnons ces LLM cibles dans l'espace des paramètres, où nous proposons une nouvelle méthode pour déterminer les coefficients de fusion basée sur l'amplitude des mises à jour des paramètres avant et après l'ajustement fin. Nous implémentons et validons FuseChat en utilisant six LLM conversationnels de premier plan avec des architectures et des échelles diverses, incluant OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, et Qwen-1.5-Chat-72B. Les résultats expérimentaux sur deux benchmarks de suivi d'instructions, AlpacaEval 2.0 et MT-Bench, démontrent la supériorité de FuseChat-7B par rapport aux modèles de référence de différentes tailles. Notre modèle est même comparable au plus grand Mixtral-8x7B-Instruct et approche GPT-3.5-Turbo-1106 sur MT-Bench. Notre code, les poids du modèle et les données sont publics à l'adresse https://github.com/fanqiwan/FuseAI.
English
While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at https://github.com/fanqiwan/FuseAI.

Summary

AI-Generated Summary

PDF142November 26, 2024