LLaVA-MoD: LLaVA verkleinen via MoE-kennisdistillatie
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Auteurs: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Samenvatting
We introduceren LLaVA-MoD, een nieuw framework ontworpen om de efficiënte training van kleinschalige Multimodale Taalmodellen (s-MLLM) mogelijk te maken door kennis te distilleren uit grootschalige MLLM (l-MLLM). Onze aanpak adresseert twee fundamentele uitdagingen in MLLM-distillatie. Ten eerste optimaliseren we de netwerkstructuur van s-MLLM door een sparse Mixture of Experts (MoE)-architectuur te integreren in het taalmodel, waardoor een balans wordt gevonden tussen computationele efficiëntie en model-expressiviteit. Ten tweede stellen we een progressieve kennisoverdrachtstrategie voor om een uitgebreide kennisoverdracht te garanderen. Deze strategie begint met mimic-distillatie, waarbij we de Kullback-Leibler (KL)-divergentie tussen uitvoeringsverdelingen minimaliseren om het studentmodel in staat te stellen het begrip van het leraarnetwerk na te bootsen. Vervolgens introduceren we voorkeursdistillatie via Direct Preference Optimization (DPO), waarbij de sleutel ligt in het behandelen van l-MLLM als het referentiemodel. Tijdens deze fase wordt het vermogen van s-MLLM om superieure en inferieure voorbeelden te onderscheiden aanzienlijk verbeterd ten opzichte van l-MLLM, wat resulteert in een betere student die zijn leraar overtreft, met name in hallucinatiebenchmarks. Uitgebreide experimenten tonen aan dat LLaVA-MoD bestaande modellen overtreft op verschillende multimodale benchmarks, terwijl het een minimaal aantal geactiveerde parameters en lage computationele kosten behoudt. Opmerkelijk is dat LLaVA-MoD, met slechts 2B geactiveerde parameters, Qwen-VL-Chat-7B gemiddeld met 8,8% overtreft op benchmarks, waarbij slechts 0,3% van de trainingsdata en 23% trainbare parameters worden gebruikt. Deze resultaten onderstrepen het vermogen van LLaVA-MoD om effectief uitgebreide kennis te distilleren uit zijn leraarmodel, wat de weg vrijmaakt voor de ontwikkeling van efficiëntere MLLM's. De code zal beschikbaar zijn op: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary