LLaVA-MoD: Rendere LLaVA Piccolo tramite Distillazione della Conoscenza MoE

Abstract

Introduciamo LLaVA-MoD, un nuovo framework progettato per consentire l'efficiente addestramento di Modelli di Linguaggio Multimodali su piccola scala (s-MLLM) mediante la distillazione della conoscenza da Modelli di Linguaggio Multimodali su larga scala (l-MLLM). Il nostro approccio affronta due sfide fondamentali nella distillazione dei MLLM. In primo luogo, ottimizziamo la struttura di rete degli s-MLLM integrando un'architettura sparsa a Mixture of Experts (MoE) nel modello linguistico, trovando un equilibrio tra efficienza computazionale ed espressività del modello. In secondo luogo, proponiamo una strategia progressiva di trasferimento di conoscenza per garantire una migrazione completa della conoscenza. Questa strategia inizia con la distillazione dell'imitazione, dove minimizziamo la divergenza Kullback-Leibler (KL) tra le distribuzioni di output per consentire al modello studente di emulare la comprensione della rete di insegnamento. Successivamente, introduciamo la distillazione delle preferenze tramite Ottimizzazione Diretta delle Preferenze (DPO), dove la chiave risiede nel trattare l-MLLM come modello di riferimento. Durante questa fase, la capacità degli s-MLLM di discriminare tra esempi superiori e inferiori viene significativamente potenziata rispetto a l-MLLM, portando a un migliore studente che supera il suo insegnante, in particolare nei benchmark di allucinazione. Estesi esperimenti dimostrano che LLaVA-MoD supera i modelli esistenti su vari benchmark multimodali mantenendo un numero minimo di parametri attivati e bassi costi computazionali. Notevolmente, LLaVA-MoD, con soli 2 miliardi di parametri attivati, supera Qwen-VL-Chat-7B in media dell'8,8% su tutti i benchmark, utilizzando solo lo 0,3% dei dati di addestramento e il 23% dei parametri addestrabili. Questi risultati sottolineano la capacità di LLaVA-MoD di distillare efficacemente una conoscenza completa dal suo modello di riferimento, aprendo la strada allo sviluppo di MLLM più efficienti. Il codice sarà disponibile su: https://github.com/shufangxun/LLaVA-MoD.

English

We introduce LLaVA-MoD, a novel framework designed to enable the efficient training of small-scale Multimodal Language Models (s-MLLM) by distilling knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental challenges in MLLM distillation. First, we optimize the network structure of s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the language model, striking a balance between computational efficiency and model expressiveness. Second, we propose a progressive knowledge transfer strategy to ensure comprehensive knowledge migration. This strategy begins with mimic distillation, where we minimize the Kullback-Leibler (KL) divergence between output distributions to enable the student model to emulate the teacher network's understanding. Following this, we introduce preference distillation via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM as the reference model. During this phase, the s-MLLM's ability to discriminate between superior and inferior examples is significantly enhanced beyond l-MLLM, leading to a better student that surpasses its teacher, particularly in hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD outperforms existing models across various multimodal benchmarks while maintaining a minimal number of activated parameters and low computational costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of the training data and 23% trainable parameters. These results underscore LLaVA-MoD's ability to effectively distill comprehensive knowledge from its teacher model, paving the way for the development of more efficient MLLMs. The code will be available on: https://github.com/shufangxun/LLaVA-MoD.

LLaVA-MoD: Rendere LLaVA Piccolo tramite Distillazione della Conoscenza MoE

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

Abstract

Support