MobiLlama: Hacia un GPT completamente transparente, preciso y ligero
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT
February 26, 2024
Autores: Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan
cs.AI
Resumen
"Cuanto más grande, mejor" ha sido la tendencia predominante en el desarrollo reciente de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los LLMs no se adaptan bien a escenarios que requieren procesamiento en el dispositivo, eficiencia energética, baja huella de memoria y eficiencia en las respuestas. Estos requisitos son cruciales para la privacidad, la seguridad y el despliegue sostenible. Este artículo explora el paradigma de "menos es más" abordando el desafío de diseñar Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) precisos pero eficientes para dispositivos con recursos limitados. Nuestra principal contribución es la introducción de un SLM de código abierto, completamente transparente y preciso, con 0.5 mil millones (0.5B) de parámetros, llamado MobiLlama, que atiende a las necesidades específicas de la computación con recursos limitados, enfatizando un rendimiento mejorado con demandas reducidas de recursos. MobiLlama es un diseño de SLM que parte de un modelo más grande y aplica un esquema cuidadoso de compartición de parámetros para reducir tanto el costo de preentrenamiento como el de despliegue. Nuestro trabajo no solo busca cerrar la brecha en los SLMs de código abierto, sino que también garantiza una transparencia total, donde el pipeline completo de datos de entrenamiento, el código de entrenamiento, los pesos del modelo y más de 300 puntos de control, junto con los códigos de evaluación, están disponibles en: https://github.com/mbzuai-oryx/MobiLlama.
English
"Bigger the better" has been the predominant trend in recent Large Language
Models (LLMs) development. However, LLMs do not suit well for scenarios that
require on-device processing, energy efficiency, low memory footprint, and
response efficiency. These requisites are crucial for privacy, security, and
sustainable deployment. This paper explores the "less is more" paradigm by
addressing the challenge of designing accurate yet efficient Small Language
Models (SLMs) for resource constrained devices. Our primary contribution is the
introduction of an accurate and fully transparent open-source 0.5 billion
(0.5B) parameter SLM, named MobiLlama, catering to the specific needs of
resource-constrained computing with an emphasis on enhanced performance with
reduced resource demands. MobiLlama is a SLM design that initiates from a
larger model and applies a careful parameter sharing scheme to reduce both the
pre-training and the deployment cost. Our work strives to not only bridge the
gap in open-source SLMs but also ensures full transparency, where complete
training data pipeline, training code, model weights, and over 300 checkpoints
along with evaluation codes is available at :
https://github.com/mbzuai-oryx/MobiLlama.