LLaVA-MoD: Verkleinerung von LLaVA durch MoE Wissensvermittlung
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Autoren: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Zusammenfassung
Wir stellen LLaVA-MoD vor, ein neuartiges Framework, das entwickelt wurde, um das effiziente Training von kleinen Multimodal Language Models (s-MLLM) durch die Destillation von Wissen aus groß angelegten MLLM (l-MLLM) zu ermöglichen. Unser Ansatz begegnet zwei grundlegenden Herausforderungen bei der MLLM-Destillation. Erstens optimieren wir die Netzwerkstruktur des s-MLLM, indem wir eine spärliche Mixture-of-Experts (MoE) Architektur in das Sprachmodell integrieren, um ein Gleichgewicht zwischen Recheneffizienz und Modellausdruckskraft zu schaffen. Zweitens schlagen wir eine progressive Wissensübertragungsstrategie vor, um eine umfassende Wissensmigration sicherzustellen. Diese Strategie beginnt mit der Mimik-Destillation, bei der wir die Kullback-Leibler-Divergenz zwischen den Ausgangsverteilungen minimieren, um dem Schülermodell zu ermöglichen, das Verständnis des Lehrernetzwerks zu emulieren. Anschließend führen wir die Präferenz-Destillation über die Direkte Präferenzoptimierung (DPO) ein, wobei der Schlüssel darin liegt, das l-MLLM als Referenzmodell zu behandeln. Während dieser Phase wird die Fähigkeit des s-MLLM, zwischen überlegenen und minderwertigen Beispielen zu unterscheiden, signifikant über das l-MLLM hinaus verbessert, was zu einem besseren Schüler führt, der insbesondere bei Halluzinations-Benchmarks seinen Lehrer übertrifft. Umfangreiche Experimente zeigen, dass LLaVA-MoD bestehende Modelle in verschiedenen multimodalen Benchmarks übertrifft, während eine minimale Anzahl aktivierter Parameter und geringe Rechenkosten beibehalten werden. Bemerkenswert ist, dass LLaVA-MoD mit nur 2B aktivierten Parametern Qwen-VL-Chat-7B im Durchschnitt um 8,8% übertrifft, wobei lediglich 0,3% der Trainingsdaten und 23% der trainierbaren Parameter verwendet werden. Diese Ergebnisse unterstreichen die Fähigkeit von LLaVA-MoD, umfassendes Wissen effektiv aus seinem Lehrermodell zu destillieren und ebnet den Weg für die Entwicklung effizienterer MLLMs. Der Code wird verfügbar sein unter: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary