FuseChat: Fusión de Conocimiento en Modelos de Chat

Resumen

Si bien entrenar grandes modelos de lenguaje (LLMs) desde cero puede efectivamente resultar en modelos con capacidades y fortalezas distintivas, este enfoque conlleva costos sustanciales y puede generar redundancia en las competencias. Una estrategia alternativa es combinar LLMs existentes para crear un LLM más robusto, reduciendo así la necesidad de un costoso preentrenamiento. Sin embargo, debido a las diversas arquitecturas de los LLMs, la fusión directa de parámetros resulta inviable. Recientemente, FuseLLM introdujo el concepto de fusión de conocimiento para transferir el conocimiento colectivo de múltiples LLMs con estructuras variadas a un LLM objetivo mediante un entrenamiento continuo ligero. En este informe, ampliamos la escalabilidad y flexibilidad del marco FuseLLM para lograr la fusión de LLMs de chat, dando lugar a FuseChat. FuseChat consta de dos etapas principales. En primer lugar, realizamos la fusión de conocimiento para LLMs fuente con estructuras y escalas variadas, obteniendo múltiples LLMs objetivo de estructura y tamaño idénticos mediante un ajuste fino ligero. Luego, estos LLMs objetivo se fusionan en el espacio de parámetros, donde proponemos un método novedoso para determinar los pesos de fusión basado en la relación de variación de las matrices de parámetros antes y después del ajuste fino. Validamos nuestro enfoque utilizando tres destacados LLMs de chat con arquitecturas y escalas diversas, a saber, NH2-Mixtral-8x7B, NH2-Solar-10.7B y OpenChat-3.5-7B. Los resultados experimentales en diversos dominios de chat demuestran la superioridad de \textsc{FuseChat-7B} en un amplio espectro de LLMs de chat en escalas de 7B y 34B, superando incluso a GPT-3.5 (marzo) y acercándose a Mixtral-8x7B-Instruct. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseLLM.

English

While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, this approach incurs substantial costs and may lead to potential redundancy in competencies. An alternative strategy is to combine existing LLMs into a more robust LLM, thereby diminishing the necessity for expensive pre-training. However, due to the diverse architectures of LLMs, direct parameter blending proves to be unfeasible. Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FuseChat. FuseChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of \textsc{FuseChat-7B} across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct. Our code, model weights, and data are openly accessible at https://github.com/fanqiwan/FuseLLM.

FuseChat: Fusión de Conocimiento en Modelos de Chat

FuseChat: Knowledge Fusion of Chat Models

Resumen

Support