LLaVA-MoD: Снижение размера LLaVA с помощью дистилляции знаний MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Авторы: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Аннотация
Мы представляем LLaVA-MoD, новую концепцию, разработанную для обеспечения эффективного обучения маломасштабных мультимодальных языковых моделей (s-MLLM) путем извлечения знаний из масштабных MLLM (l-MLLM). Наш подход решает две основные проблемы в дистилляции MLLM. Во-первых, мы оптимизируем структуру сети s-MLLM, интегрируя разреженную архитектуру Mixture of Experts (MoE) в языковую модель, находя баланс между вычислительной эффективностью и выразительностью модели. Во-вторых, мы предлагаем стратегию пошагового переноса знаний для обеспечения всесторонней миграции знаний. Эта стратегия начинается с дистилляции подражания, где мы минимизируем дивергенцию Кульбака-Лейблера (KL) между распределениями вывода, чтобы позволить студенческой модели эмулировать понимание сети учителя. Затем мы вводим дистилляцию предпочтений через прямую оптимизацию предпочтений (DPO), где ключевое значение имеет обращение к l-MLLM как к эталонной модели. Во время этой фазы способность s-MLLM различать между превосходными и низкокачественными примерами значительно улучшается по сравнению с l-MLLM, что приводит к более качественному студенту, превосходящему своего учителя, особенно в бенчмарках галлюцинаций. Обширные эксперименты показывают, что LLaVA-MoD превосходит существующие модели на различных мультимодальных бенчмарках, сохраняя минимальное количество активированных параметров и низкие вычислительные затраты. Замечательно, LLaVA-MoD, с всего 2 миллиардами активированных параметров, превосходит Qwen-VL-Chat-7B в среднем на 8,8% по бенчмаркам, используя лишь 0,3% обучающих данных и 23% обучаемых параметров. Эти результаты подчеркивают способность LLaVA-MoD эффективно дистиллировать всесторонние знания от своей учительской модели, что открывает путь к разработке более эффективных MLLM. Код будет доступен по ссылке: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary