ChatPaper.aiChatPaper

MoTE: Mistura de Especialistas Ternários para Modelos Multimodais Grandes com Eficiência de Memória

MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

June 17, 2025
Autores: Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen
cs.AI

Resumo

Grandes modelos multimodais de Mistura de Especialistas (MoEs) escalam efetivamente o tamanho do modelo para impulsionar o desempenho enquanto mantêm parâmetros ativos fixos. No entanto, trabalhos anteriores utilizaram principalmente especialistas de precisão total durante o reaproveitamento esparso. Apesar de demonstrarem desempenho superior em tarefas finais, a grande quantidade de especialistas introduz uma maior pegada de memória, o que representa desafios significativos para a implantação em dispositivos de borda. Neste trabalho, propomos o MoTE, uma abordagem escalável e eficiente em memória para treinar modelos de Mistura de Especialistas Ternários a partir de um ponto de verificação denso. Em vez de treinar menos especialistas de alta precisão, propomos treinar mais especialistas de baixa precisão durante o reaproveitamento. Especificamente, usamos o FFN pré-treinado como um especialista compartilhado e treinamos especialistas roteados ternários com parâmetros em {-1, 0, 1}. Experimentos extensivos mostram que nossa abordagem tem uma tendência promissora de escalabilidade com o tamanho do modelo. O MoTE alcança desempenho comparável ao MoE-LLaVA de precisão total, enquanto oferece uma pegada de memória menor. Além disso, nossa abordagem é compatível com métodos de quantização pós-treinamento, e a vantagem se amplifica ainda mais quando a restrição de memória diminui. Dada a mesma pegada de memória de especialistas de 3,4 GB e combinada com quantização pós-treinamento, o MoTE supera o MoE-LLaVA com um ganho de 4,3% na precisão média em tarefas finais, demonstrando sua eficácia e potencial para dispositivos com restrições de memória.
English
Large multimodal Mixture-of-Experts (MoEs) effectively scale the model size to boost performance while maintaining fixed active parameters. However, previous works primarily utilized full-precision experts during sparse up-cycling. Despite they show superior performance on end tasks, the large amount of experts introduces higher memory footprint, which poses significant challenges for the deployment on edge devices. In this work, we propose MoTE, a scalable and memory-efficient approach to train Mixture-of-Ternary-Experts models from dense checkpoint. Instead of training fewer high-precision experts, we propose to train more low-precision experts during up-cycling. Specifically, we use the pre-trained FFN as a shared expert and train ternary routed experts with parameters in {-1, 0, 1}. Extensive experiments show that our approach has promising scaling trend along model size. MoTE achieves comparable performance to full-precision baseline MoE-LLaVA while offering lower memory footprint. Furthermore, our approach is compatible with post-training quantization methods and the advantage further amplifies when memory-constraint goes lower. Given the same amount of expert memory footprint of 3.4GB and combined with post-training quantization, MoTE outperforms MoE-LLaVA by a gain of 4.3% average accuracy on end tasks, demonstrating its effectiveness and potential for memory-constrained devices.
PDF82June 19, 2025