ChatPaper.aiChatPaper

Falcon Mamba: El Primer Modelo de Lenguaje Competitivo de 7B sin Atención

Falcon Mamba: The First Competitive Attention-free 7B Language Model

October 7, 2024
Autores: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI

Resumen

En este informe técnico, presentamos Falcon Mamba 7B, un nuevo modelo de lenguaje base grande basado en la novedosa arquitectura Mamba. Falcon Mamba 7B está entrenado en 5.8 billones de tokens con mezclas de datos cuidadosamente seleccionadas. Como un modelo puramente basado en Mamba, Falcon Mamba 7B supera a los principales modelos de peso abierto basados en Transformers, como Mistral 7B, Llama3.1 8B y Falcon2 11B. Está a la par con Gemma 7B y supera a modelos con diferentes diseños de arquitectura, como RecurrentGemma 9B y RWKV-v6 Finch 7B/14B. Actualmente, Falcon Mamba 7B es el modelo Mamba de mejor rendimiento en la literatura en esta escala, superando tanto a los modelos Mamba existentes como a los modelos híbridos Mamba-Transformer, según el Open LLM Leaderboard. Debido a su arquitectura, Falcon Mamba 7B es significativamente más rápido en inferencia y requiere sustancialmente menos memoria para la generación de secuencias largas. A pesar de estudios recientes que sugieren que los modelos híbridos Mamba-Transformer superan a los diseños de arquitectura pura, demostramos que incluso el diseño puro de Mamba puede lograr resultados similares, o incluso superiores, en comparación con los diseños de Transformer y híbridos. Ponemos los pesos de nuestra implementación de Falcon Mamba 7B públicamente disponibles en https://huggingface.co/tiiuae/falcon-mamba-7b, bajo una licencia permisiva.
English
In this technical report, we present Falcon Mamba 7B, a new base large language model based on the novel Mamba architecture. Falcon Mamba 7B is trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par with Gemma 7B and outperforms models with different architecture designs, such as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is the best-performing Mamba model in the literature at this scale, surpassing both existing Mamba and hybrid Mamba-Transformer models, according to the Open LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly faster at inference and requires substantially less memory for long sequence generation. Despite recent studies suggesting that hybrid Mamba-Transformer models outperform pure architecture designs, we demonstrate that even the pure Mamba design can achieve similar, or even superior results compared to the Transformer and hybrid designs. We make the weights of our implementation of Falcon Mamba 7B publicly available on https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.

Summary

AI-Generated Summary

PDF362November 16, 2024