Falcon Mamba: Het Eerste Competitieve Aandachtvrije 7B Taalmodel
Falcon Mamba: The First Competitive Attention-free 7B Language Model
October 7, 2024
Auteurs: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI
Samenvatting
In dit technische rapport presenteren we Falcon Mamba 7B, een nieuw basismodel voor grote taalmodellen gebaseerd op de innovatieve Mamba-architectuur. Falcon Mamba 7B is getraind op 5,8 biljoen tokens met zorgvuldig geselecteerde gegevensmengsels. Als een puur op Mamba gebaseerd model overtreft Falcon Mamba 7B toonaangevende open-gewichtsmodellen gebaseerd op Transformers, zoals Mistral 7B, Llama3.1 8B en Falcon2 11B. Het staat gelijk aan Gemma 7B en presteert beter dan modellen met verschillende architectuurontwerpen, zoals RecurrentGemma 9B en RWKV-v6 Finch 7B/14B. Op dit moment is Falcon Mamba 7B het best presterende Mamba-model in de literatuur op deze schaal, waarbij het zowel bestaande Mamba-modellen als hybride Mamba-Transformer-modellen overtreft, volgens de Open LLM Leaderboard. Vanwege de architectuur is Falcon Mamba 7B aanzienlijk sneller bij inferentie en vereist aanzienlijk minder geheugen voor het genereren van lange sequenties. Ondanks recente studies die suggereren dat hybride Mamba-Transformer-modellen beter presteren dan pure architectuurontwerpen, tonen we aan dat zelfs het pure Mamba-ontwerp vergelijkbare of zelfs superieure resultaten kan behalen in vergelijking met de Transformer- en hybride ontwerpen. We stellen de gewichten van onze implementatie van Falcon Mamba 7B openbaar beschikbaar op https://huggingface.co/tiiuae/falcon-mamba-7b, onder een permissieve licentie.
English
In this technical report, we present Falcon Mamba 7B, a new base large
language model based on the novel Mamba architecture. Falcon Mamba 7B is
trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure
Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based
on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par
with Gemma 7B and outperforms models with different architecture designs, such
as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is
the best-performing Mamba model in the literature at this scale, surpassing
both existing Mamba and hybrid Mamba-Transformer models, according to the Open
LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly
faster at inference and requires substantially less memory for long sequence
generation. Despite recent studies suggesting that hybrid Mamba-Transformer
models outperform pure architecture designs, we demonstrate that even the pure
Mamba design can achieve similar, or even superior results compared to the
Transformer and hybrid designs. We make the weights of our implementation of
Falcon Mamba 7B publicly available on
https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.Summary
AI-Generated Summary