FuseChat: Fusión de Conocimiento en Modelos de Chat
FuseChat: Knowledge Fusion of Chat Models
February 25, 2024
Autores: Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi
cs.AI
Resumen
Si bien entrenar grandes modelos de lenguaje (LLMs) desde cero puede efectivamente resultar en modelos con capacidades y fortalezas distintivas, este enfoque conlleva costos sustanciales y puede generar redundancia en las competencias. Una estrategia alternativa es combinar LLMs existentes para crear un LLM más robusto, reduciendo así la necesidad de un costoso preentrenamiento. Sin embargo, debido a las diversas arquitecturas de los LLMs, la fusión directa de parámetros resulta inviable. Recientemente, FuseLLM introdujo el concepto de fusión de conocimiento para transferir el conocimiento colectivo de múltiples LLMs con estructuras variadas a un LLM objetivo mediante un entrenamiento continuo ligero. En este informe, ampliamos la escalabilidad y flexibilidad del marco FuseLLM para lograr la fusión de LLMs de chat, dando lugar a FuseChat.
FuseChat consta de dos etapas principales. En primer lugar, realizamos la fusión de conocimiento para LLMs fuente con estructuras y escalas variadas, obteniendo múltiples LLMs objetivo de estructura y tamaño idénticos mediante un ajuste fino ligero. Luego, estos LLMs objetivo se fusionan en el espacio de parámetros, donde proponemos un método novedoso para determinar los pesos de fusión basado en la relación de variación de las matrices de parámetros antes y después del ajuste fino. Validamos nuestro enfoque utilizando tres destacados LLMs de chat con arquitecturas y escalas diversas, a saber, NH2-Mixtral-8x7B, NH2-Solar-10.7B y OpenChat-3.5-7B. Los resultados experimentales en diversos dominios de chat demuestran la superioridad de \textsc{FuseChat-7B} en un amplio espectro de LLMs de chat en escalas de 7B y 34B, superando incluso a GPT-3.5 (marzo) y acercándose a Mixtral-8x7B-Instruct. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseLLM.
English
While training large language models (LLMs) from scratch can indeed lead to
models with distinct capabilities and strengths, this approach incurs
substantial costs and may lead to potential redundancy in competencies. An
alternative strategy is to combine existing LLMs into a more robust LLM,
thereby diminishing the necessity for expensive pre-training. However, due to
the diverse architectures of LLMs, direct parameter blending proves to be
unfeasible. Recently, FuseLLM introduced the concept of knowledge
fusion to transfer the collective knowledge of multiple structurally varied
LLMs into a target LLM through lightweight continual training. In this report,
we extend the scalability and flexibility of the FuseLLM framework to
realize the fusion of chat LLMs, resulting in FuseChat.
FuseChat comprises two main stages. Firstly, we undertake knowledge
fusion for structurally and scale-varied source LLMs to derive multiple target
LLMs of identical structure and size via lightweight fine-tuning. Then, these
target LLMs are merged within the parameter space, wherein we propose a novel
method for determining the merging weights based on the variation ratio of
parameter matrices before and after fine-tuning. We validate our approach using
three prominent chat LLMs with diverse architectures and scales, namely
NH2-Mixtral-8x7B, NH2-Solar-10.7B, and
OpenChat-3.5-7B. Experimental results spanning various chat domains
demonstrate the superiority of \textsc{FuseChat-7B} across a broad
spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5
(March) and approaching Mixtral-8x7B-Instruct. Our code, model
weights, and data are openly accessible at
https://github.com/fanqiwan/FuseLLM.