ChatPaper.aiChatPaper

FuseChat: Fusión de Conocimiento de Modelos de Chat

FuseChat: Knowledge Fusion of Chat Models

August 15, 2024
Autores: Fanqi Wan, Longguang Zhong, Ziyi Yang, Ruijun Chen, Xiaojun Quan
cs.AI

Resumen

Si bien entrenar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) desde cero puede conducir efectivamente a modelos con capacidades y fortalezas distintas, conlleva costos sustanciales y puede resultar en redundancia de competencias. La fusión de conocimiento tiene como objetivo integrar LLMs existentes con diversas arquitecturas y capacidades en un LLM más potente a través de un entrenamiento continuo ligero, reduciendo así la necesidad de un costoso desarrollo de LLM. En este trabajo, proponemos un nuevo marco para la fusión de conocimiento de LLMs de chat a través de dos etapas principales, lo que resulta en FuseChat. En primer lugar, realizamos una fusión de conocimiento por pares en LLMs de chat fuente con estructuras y escalas variables para crear múltiples LLMs objetivo con la misma estructura y tamaño mediante un ajuste fino ligero. Durante este proceso, se introduce un enfoque de alineación de tokens basado en estadísticas como piedra angular para fusionar LLMs con estructuras diferentes. En segundo lugar, fusionamos estos LLMs objetivo dentro del espacio de parámetros, donde proponemos un método novedoso para determinar los coeficientes de fusión basados en la magnitud de las actualizaciones de parámetros antes y después del ajuste fino. Implementamos y validamos FuseChat utilizando seis destacados LLMs de chat con diversas arquitecturas y escalas, incluidos OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct y Qwen-1.5-Chat-72B. Los resultados experimentales en dos bancos de pruebas de seguimiento de instrucciones, AlpacaEval 2.0 y MT-Bench, demuestran la superioridad de FuseChat-7B sobre las líneas de base de varios tamaños. Nuestro modelo es incluso comparable al más grande Mixtral-8x7B-Instruct y se acerca a GPT-3.5-Turbo-1106 en MT-Bench. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseAI.
English
While training large language models (LLMs) from scratch can indeed lead to models with distinct capabilities and strengths, it incurs substantial costs and may lead to redundancy in competencies. Knowledge fusion aims to integrate existing LLMs of diverse architectures and capabilities into a more potent LLM through lightweight continual training, thereby reducing the need for costly LLM development. In this work, we propose a new framework for the knowledge fusion of chat LLMs through two main stages, resulting in FuseChat. Firstly, we conduct pairwise knowledge fusion on source chat LLMs of varying structures and scales to create multiple target LLMs with identical structure and size via lightweight fine-tuning. During this process, a statistics-based token alignment approach is introduced as the cornerstone for fusing LLMs with different structures. Secondly, we merge these target LLMs within the parameter space, where we propose a novel method for determining the merging coefficients based on the magnitude of parameter updates before and after fine-tuning. We implement and validate FuseChat using six prominent chat LLMs with diverse architectures and scales, including OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, and Qwen-1.5-Chat-72B. Experimental results on two instruction-following benchmarks, AlpacaEval 2.0 and MT-Bench, demonstrate the superiority of FuseChat-7B over baselines of various sizes. Our model is even comparable to the larger Mixtral-8x7B-Instruct and approaches GPT-3.5-Turbo-1106 on MT-Bench. Our code, model weights, and data are public at https://github.com/fanqiwan/FuseAI.

Summary

AI-Generated Summary

PDF142November 26, 2024