ChatPaper.aiChatPaper

LIBMoE: Uma Biblioteca para avaliação abrangente de Mistura de Especialistas em Modelos de Linguagem Grandes

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

November 1, 2024
Autores: Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham
cs.AI

Resumo

A Mixture of Experts (MoEs) desempenha um papel importante no desenvolvimento de modelos de linguagem grandes (LLMs) mais eficientes e eficazes. Devido aos enormes requisitos de recursos, o estudo de algoritmos MoE em grande escala permanece inacessível para muitos pesquisadores. Este trabalho desenvolve o LibMoE, um framework abrangente e modular para simplificar a pesquisa, treinamento e avaliação de algoritmos MoE. Construído com base em três princípios principais: (i) design modular, (ii) treinamento eficiente; (iii) avaliação abrangente, o LibMoE torna os MoE em LLMs mais acessíveis a uma ampla gama de pesquisadores, padronizando os pipelines de treinamento e avaliação. Usando o LibMoE, realizamos extensas análises comparativas de cinco algoritmos MoE de última geração em três LLMs diferentes e 11 conjuntos de dados no cenário de zero-shot. Os resultados mostram que, apesar das características únicas, todos os algoritmos MoE apresentam desempenho aproximadamente semelhante quando considerados em uma ampla gama de tarefas. Com o design modular e a avaliação abrangente, acreditamos que o LibMoE será inestimável para os pesquisadores avançarem significativamente em direção à próxima geração de MoE e LLMs. Página do projeto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
English
Mixture of Experts (MoEs) plays an important role in the development of more efficient and effective large language models (LLMs). Due to the enormous resource requirements, studying large scale MoE algorithms remain in-accessible to many researchers. This work develops LibMoE, a comprehensive and modular framework to streamline the research, training, and evaluation of MoE algorithms. Built upon three core principles: (i) modular design, (ii) efficient training; (iii) comprehensive evaluation, LibMoE brings MoE in LLMs more accessible to a wide range of researchers by standardizing the training and evaluation pipelines. Using LibMoE, we extensively benchmarked five state-of-the-art MoE algorithms over three different LLMs and 11 datasets under the zero-shot setting. The results show that despite the unique characteristics, all MoE algorithms perform roughly similar when averaged across a wide range of tasks. With the modular design and extensive evaluation, we believe LibMoE will be invaluable for researchers to make meaningful progress towards the next generation of MoE and LLMs. Project page: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

Summary

AI-Generated Summary

PDF82November 13, 2024