LIBMoE: Una biblioteca para la evaluación exhaustiva de la Mezcla de Expertos en Modelos de Lenguaje Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models
November 1, 2024
Autores: Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham
cs.AI
Resumen
La combinación de Expertos (MoEs) juega un papel importante en el desarrollo de modelos de lenguaje grandes (LLMs) más eficientes y efectivos. Debido a los enormes requisitos de recursos, el estudio de algoritmos MoE a gran escala sigue siendo inaccesible para muchos investigadores. Este trabajo desarrolla LibMoE, un marco integral y modular para agilizar la investigación, entrenamiento y evaluación de algoritmos MoE. Basado en tres principios fundamentales: (i) diseño modular, (ii) entrenamiento eficiente; (iii) evaluación exhaustiva, LibMoE hace que MoE en LLMs sea más accesible para una amplia gama de investigadores al estandarizar los procesos de entrenamiento y evaluación. Utilizando LibMoE, evaluamos exhaustivamente cinco algoritmos MoE de última generación en tres LLMs diferentes y 11 conjuntos de datos en el escenario de cero disparos. Los resultados muestran que a pesar de las características únicas, todos los algoritmos MoE tienen un rendimiento similar en promedio en una amplia gama de tareas. Con el diseño modular y la evaluación exhaustiva, creemos que LibMoE será invaluable para que los investigadores avancen significativamente hacia la próxima generación de MoE y LLMs. Página del proyecto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
English
Mixture of Experts (MoEs) plays an important role in the development of more
efficient and effective large language models (LLMs). Due to the enormous
resource requirements, studying large scale MoE algorithms remain in-accessible
to many researchers. This work develops LibMoE, a comprehensive and
modular framework to streamline the research, training, and evaluation of MoE
algorithms. Built upon three core principles: (i) modular design, (ii)
efficient training; (iii) comprehensive evaluation, LibMoE brings MoE in LLMs
more accessible to a wide range of researchers by standardizing the training
and evaluation pipelines. Using LibMoE, we extensively benchmarked five
state-of-the-art MoE algorithms over three different LLMs and 11 datasets under
the zero-shot setting. The results show that despite the unique
characteristics, all MoE algorithms perform roughly similar when averaged
across a wide range of tasks. With the modular design and extensive evaluation,
we believe LibMoE will be invaluable for researchers to make meaningful
progress towards the next generation of MoE and LLMs. Project page:
https://fsoft-aic.github.io/fsoft-LibMoE.github.io.Summary
AI-Generated Summary