ChatPaper.aiChatPaper

MoE-LLaVA: Смесь экспертов для крупных моделей обработки зрения и языка

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

January 29, 2024
Авторы: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI

Аннотация

Для крупных моделей, объединяющих зрение и язык (Large Vision-Language Models, LVLMs), масштабирование модели может значительно повысить производительность. Однако увеличение числа параметров модели существенно увеличивает затраты на обучение и вывод, так как все параметры модели активируются для каждого токена в процессе вычислений. В данной работе мы предлагаем новую стратегию обучения MoE-tuning для LVLMs, которая позволяет создавать разреженную модель с огромным количеством параметров, но с постоянными вычислительными затратами, и эффективно устраняет снижение производительности, обычно связанное с многомодальным обучением и разреженностью модели. Кроме того, мы представляем фреймворк MoE-LLaVA — разреженную архитектуру LVLM на основе MoE. Этот фреймворк уникальным образом активирует только топ-k экспертов через маршрутизаторы во время работы, оставляя остальных экспертов неактивными. Наши обширные эксперименты подчеркивают превосходные возможности MoE-LLaVA в визуальном понимании и её потенциал для уменьшения галлюцинаций в выводах модели. Примечательно, что с всего 3 миллиардами разреженно активированных параметров MoE-LLaVA демонстрирует производительность, сопоставимую с LLaVA-1.5-7B на различных наборах данных для визуального понимания, и даже превосходит LLaVA-1.5-13B в тестах на галлюцинации объектов. С помощью MoE-LLaVA мы стремимся установить базовый уровень для разреженных LVLMs и предоставить ценные идеи для будущих исследований в разработке более эффективных и производительных многомодальных обучающих систем. Код доступен по адресу https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
PDF544December 15, 2024