ChatPaper.aiChatPaper

MoE-LLaVA: Mixture of Experts für große visuell-sprachliche Modelle

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

January 29, 2024
Autoren: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI

Zusammenfassung

Für Large Vision-Language Models (LVLMs) kann die Skalierung des Modells die Leistung effektiv verbessern. Die Erweiterung der Modellparameter erhöht jedoch die Trainings- und Inferenzkosten erheblich, da alle Modellparameter für jedes Token in der Berechnung aktiviert werden. In dieser Arbeit schlagen wir eine neuartige Trainingsstrategie namens MoE-tuning für LVLMs vor, die ein sparsames Modell mit einer enormen Anzahl von Parametern, aber konstanten Berechnungskosten konstruiert und die Leistungsminderung, die typischerweise mit multimodalem Lernen und Modellsparsamkeit verbunden ist, effektiv adressiert. Darüber hinaus präsentieren wir das MoE-LLaVA-Framework, eine auf MoE basierende sparsame LVLM-Architektur. Dieses Framework aktiviert während des Einsatzes einzigartig nur die Top-k-Experten durch Router und hält die verbleibenden Experten inaktiv. Unsere umfangreichen Experimente heben die hervorragenden Fähigkeiten von MoE-LLaVA im visuellen Verständnis und sein Potenzial zur Reduzierung von Halluzinationen in den Modellausgaben hervor. Bemerkenswerterweise zeigt MoE-LLaVA mit nur 3 Milliarden spärlich aktivierten Parametern eine Leistung, die mit der von LLaVA-1.5-7B auf verschiedenen Datensätzen zum visuellen Verständnis vergleichbar ist und sogar die LLaVA-1.5-13B in Benchmarks zur Objekthalluzination übertrifft. Durch MoE-LLaVA streben wir an, eine Baseline für sparsame LVLMs zu etablieren und wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effizienterer und effektiverer multimodaler Lernsysteme zu bieten. Der Code ist unter https://github.com/PKU-YuanGroup/MoE-LLaVA verfügbar.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
PDF544December 15, 2024