LLaVA-MoD: Rendere LLaVA Piccolo tramite Distillazione della Conoscenza MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Autori: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Abstract
Introduciamo LLaVA-MoD, un nuovo framework progettato per consentire l'efficiente addestramento di Modelli di Linguaggio Multimodali su piccola scala (s-MLLM) mediante la distillazione della conoscenza da Modelli di Linguaggio Multimodali su larga scala (l-MLLM). Il nostro approccio affronta due sfide fondamentali nella distillazione dei MLLM. In primo luogo, ottimizziamo la struttura di rete degli s-MLLM integrando un'architettura sparsa a Mixture of Experts (MoE) nel modello linguistico, trovando un equilibrio tra efficienza computazionale ed espressività del modello. In secondo luogo, proponiamo una strategia progressiva di trasferimento di conoscenza per garantire una migrazione completa della conoscenza. Questa strategia inizia con la distillazione dell'imitazione, dove minimizziamo la divergenza Kullback-Leibler (KL) tra le distribuzioni di output per consentire al modello studente di emulare la comprensione della rete di insegnamento. Successivamente, introduciamo la distillazione delle preferenze tramite Ottimizzazione Diretta delle Preferenze (DPO), dove la chiave risiede nel trattare l-MLLM come modello di riferimento. Durante questa fase, la capacità degli s-MLLM di discriminare tra esempi superiori e inferiori viene significativamente potenziata rispetto a l-MLLM, portando a un migliore studente che supera il suo insegnante, in particolare nei benchmark di allucinazione. Estesi esperimenti dimostrano che LLaVA-MoD supera i modelli esistenti su vari benchmark multimodali mantenendo un numero minimo di parametri attivati e bassi costi computazionali. Notevolmente, LLaVA-MoD, con soli 2 miliardi di parametri attivati, supera Qwen-VL-Chat-7B in media dell'8,8% su tutti i benchmark, utilizzando solo lo 0,3% dei dati di addestramento e il 23% dei parametri addestrabili. Questi risultati sottolineano la capacità di LLaVA-MoD di distillare efficacemente una conoscenza completa dal suo modello di riferimento, aprendo la strada allo sviluppo di MLLM più efficienti. Il codice sarà disponibile su: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.