FuseChat: Fusão de Conhecimento de Modelos de Chat
FuseChat: Knowledge Fusion of Chat Models
August 15, 2024
Autores: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
cs.AI
Resumo
Embora treinar grandes modelos de linguagem (LLMs) do zero possa de fato resultar em modelos com capacidades e pontos fortes distintos, isso acarreta custos substanciais e pode levar à redundância de competências. A fusão de conhecimento tem como objetivo integrar LLMs existentes de arquiteturas e capacidades diversas em um LLM mais potente por meio de um treinamento contínuo leve, reduzindo assim a necessidade de desenvolvimento dispendioso de LLMs. Neste trabalho, propomos um novo framework para a fusão de conhecimento de LLMs de chat por meio de duas etapas principais, resultando no FuseChat. Primeiramente, realizamos a fusão de conhecimento em pares em LLMs de chat de origem com estruturas e escalas variadas para criar múltiplos LLMs de destino com estrutura e tamanho idênticos por meio de ajustes finos leves. Durante esse processo, é introduzida uma abordagem de alinhamento de tokens baseada em estatísticas como pedra angular para fundir LLMs com estruturas diferentes. Em segundo lugar, fundimos esses LLMs de destino no espaço de parâmetros, onde propomos um método inovador para determinar os coeficientes de fusão com base na magnitude das atualizações de parâmetros antes e depois dos ajustes finos. Implementamos e validamos o FuseChat usando seis proeminentes LLMs de chat com arquiteturas e escalas diversas, incluindo OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct e Qwen-1.5-Chat-72B. Resultados experimentais em dois benchmarks de seguimento de instruções, AlpacaEval 2.0 e MT-Bench, demonstram a superioridade do FuseChat-7B em relação a baselines de vários tamanhos. Nosso modelo é até comparável ao maior Mixtral-8x7B-Instruct e se aproxima do GPT-3.5-Turbo-1106 no MT-Bench. Nosso código, pesos do modelo e dados estão disponíveis em https://github.com/fanqiwan/FuseAI.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, it incurs substantial costs
and may lead to redundancy in competencies. Knowledge fusion aims to integrate
existing LLMs of diverse architectures and capabilities into a more potent LLM
through lightweight continual training, thereby reducing the need for costly
LLM development. In this work, we propose a new framework for the knowledge
fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we
conduct pairwise knowledge fusion on source chat LLMs of varying structures and
scales to create multiple target LLMs with identical structure and size via
lightweight fine-tuning. During this process, a statistics-based token
alignment approach is introduced as the cornerstone for fusing LLMs with
different structures. Secondly, we merge these target LLMs within the parameter
space, where we propose a novel method for determining the merging coefficients
based on the magnitude of parameter updates before and after fine-tuning. We
implement and validate FuseChat using six prominent chat LLMs with diverse
architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha,
NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and
Qwen-1.5-Chat-72B. Experimental results on two instruction-following
benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of
FuseChat-7B over baselines of various sizes. Our model is even comparable to
the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench.
Our code, model weights, and data are public at
https://github.com/fanqiwan/FuseAI.Summary
AI-Generated Summary