LLaVA-MoD: Haciendo LLaVA diminuto a través de la destilación de conocimiento de MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Autores: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Resumen
Presentamos LLaVA-MoD, un nuevo marco diseñado para permitir el entrenamiento eficiente de Modelos de Lenguaje Multimodales a pequeña escala (s-MLLM) mediante la destilación de conocimiento de MLLM a gran escala (l-MLLM). Nuestro enfoque aborda dos desafíos fundamentales en la destilación de MLLM. Primero, optimizamos la estructura de red de s-MLLM integrando una arquitectura dispersa de Mezcla de Expertos (MoE) en el modelo de lenguaje, logrando un equilibrio entre eficiencia computacional y expresividad del modelo. Segundo, proponemos una estrategia progresiva de transferencia de conocimiento para garantizar una migración de conocimiento integral. Esta estrategia comienza con la destilación de imitación, donde minimizamos la divergencia de Kullback-Leibler (KL) entre las distribuciones de salida para permitir que el modelo estudiante emule la comprensión de la red docente. A continuación, introducimos la destilación de preferencias a través de la Optimización Directa de Preferencias (DPO), donde la clave radica en tratar al l-MLLM como el modelo de referencia. Durante esta fase, la capacidad de s-MLLM para discriminar entre ejemplos superiores e inferiores se mejora significativamente más allá de l-MLLM, lo que lleva a un estudiante mejorado que supera a su profesor, especialmente en pruebas de alucinación. Experimentos extensos demuestran que LLaVA-MoD supera a los modelos existentes en varios puntos de referencia multimodales mientras mantiene un número mínimo de parámetros activados y bajos costos computacionales. Notablemente, LLaVA-MoD, con solo 2B de parámetros activados, supera a Qwen-VL-Chat-7B en un promedio del 8.8% en los puntos de referencia, utilizando apenas el 0.3% de los datos de entrenamiento y el 23% de los parámetros entrenables. Estos resultados subrayan la capacidad de LLaVA-MoD para destilar eficazmente conocimiento integral de su modelo docente, allanando el camino para el desarrollo de MLLMs más eficientes. El código estará disponible en: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary