Falcon Mamba : Le premier modèle de langage 7B compétitif sans attention
Falcon Mamba: The First Competitive Attention-free 7B Language Model
October 7, 2024
Auteurs: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI
Résumé
Dans ce rapport technique, nous présentons Falcon Mamba 7B, un nouveau modèle de langue de base basé sur la nouvelle architecture Mamba. Falcon Mamba 7B est entraîné sur 5,8 billions de tokens avec des mélanges de données soigneusement sélectionnés. En tant que modèle basé uniquement sur Mamba, Falcon Mamba 7B surpasse les principaux modèles open-weight basés sur les Transformers, tels que Mistral 7B, Llama3.1 8B et Falcon2 11B. Il est à la hauteur de Gemma 7B et surpasse les modèles avec des conceptions architecturales différentes, tels que RecurrentGemma 9B et RWKV-v6 Finch 7B/14B. Actuellement, Falcon Mamba 7B est le modèle Mamba le plus performant dans la littérature à cette échelle, surpassant à la fois les modèles Mamba existants et les modèles hybrides Mamba-Transformer, selon le Open LLM Leaderboard. En raison de son architecture, Falcon Mamba 7B est significativement plus rapide en inférence et nécessite substantiellement moins de mémoire pour la génération de séquences longues. Malgré des études récentes suggérant que les modèles hybrides Mamba-Transformer surpassent les conceptions architecturales pures, nous démontrons que même la conception pure de Mamba peut atteindre des résultats similaires, voire supérieurs, par rapport aux conceptions Transformer et hybrides. Nous mettons les poids de notre implémentation de Falcon Mamba 7B publiquement disponibles sur https://huggingface.co/tiiuae/falcon-mamba-7b, sous une licence permissive.
English
In this technical report, we present Falcon Mamba 7B, a new base large
language model based on the novel Mamba architecture. Falcon Mamba 7B is
trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure
Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based
on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par
with Gemma 7B and outperforms models with different architecture designs, such
as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is
the best-performing Mamba model in the literature at this scale, surpassing
both existing Mamba and hybrid Mamba-Transformer models, according to the Open
LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly
faster at inference and requires substantially less memory for long sequence
generation. Despite recent studies suggesting that hybrid Mamba-Transformer
models outperform pure architecture designs, we demonstrate that even the pure
Mamba design can achieve similar, or even superior results compared to the
Transformer and hybrid designs. We make the weights of our implementation of
Falcon Mamba 7B publicly available on
https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.Summary
AI-Generated Summary