LIBMoE: Uma Biblioteca para avaliação abrangente de Mistura de Especialistas em Modelos de Linguagem Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models
November 1, 2024
Autores: Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham
cs.AI
Resumo
A Mixture of Experts (MoEs) desempenha um papel importante no desenvolvimento de modelos de linguagem grandes (LLMs) mais eficientes e eficazes. Devido aos enormes requisitos de recursos, o estudo de algoritmos MoE em grande escala permanece inacessível para muitos pesquisadores. Este trabalho desenvolve o LibMoE, um framework abrangente e modular para simplificar a pesquisa, treinamento e avaliação de algoritmos MoE. Construído com base em três princípios principais: (i) design modular, (ii) treinamento eficiente; (iii) avaliação abrangente, o LibMoE torna os MoE em LLMs mais acessíveis a uma ampla gama de pesquisadores, padronizando os pipelines de treinamento e avaliação. Usando o LibMoE, realizamos extensas análises comparativas de cinco algoritmos MoE de última geração em três LLMs diferentes e 11 conjuntos de dados no cenário de zero-shot. Os resultados mostram que, apesar das características únicas, todos os algoritmos MoE apresentam desempenho aproximadamente semelhante quando considerados em uma ampla gama de tarefas. Com o design modular e a avaliação abrangente, acreditamos que o LibMoE será inestimável para os pesquisadores avançarem significativamente em direção à próxima geração de MoE e LLMs. Página do projeto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
English
Mixture of Experts (MoEs) plays an important role in the development of more
efficient and effective large language models (LLMs). Due to the enormous
resource requirements, studying large scale MoE algorithms remain in-accessible
to many researchers. This work develops LibMoE, a comprehensive and
modular framework to streamline the research, training, and evaluation of MoE
algorithms. Built upon three core principles: (i) modular design, (ii)
efficient training; (iii) comprehensive evaluation, LibMoE brings MoE in LLMs
more accessible to a wide range of researchers by standardizing the training
and evaluation pipelines. Using LibMoE, we extensively benchmarked five
state-of-the-art MoE algorithms over three different LLMs and 11 datasets under
the zero-shot setting. The results show that despite the unique
characteristics, all MoE algorithms perform roughly similar when averaged
across a wide range of tasks. With the modular design and extensive evaluation,
we believe LibMoE will be invaluable for researchers to make meaningful
progress towards the next generation of MoE and LLMs. Project page:
https://fsoft-aic.github.io/fsoft-LibMoE.github.io.Summary
AI-Generated Summary