Falcon Mamba: Das erste wettbewerbsfähige aufmerksamkeitsfreie 7B-Sprachmodell
Falcon Mamba: The First Competitive Attention-free 7B Language Model
October 7, 2024
Autoren: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI
Zusammenfassung
In diesem technischen Bericht präsentieren wir Falcon Mamba 7B, ein neues großes Basissprachmodell, das auf der neuartigen Mamba-Architektur basiert. Falcon Mamba 7B wurde auf 5,8 Billionen Tokens mit sorgfältig ausgewählten Datengemischen trainiert. Als reines Mamba-basiertes Modell übertrifft Falcon Mamba 7B führende Open-Weight-Modelle auf Transformer-Basis wie Mistral 7B, Llama3.1 8B und Falcon2 11B. Es steht auf Augenhöhe mit Gemma 7B und übertrifft Modelle mit unterschiedlichen Architekturentwürfen wie RecurrentGemma 9B und RWKV-v6 Finch 7B/14B. Derzeit ist Falcon Mamba 7B das leistungsstärkste Mamba-Modell in der Literatur in diesem Maßstab und übertrifft sowohl bestehende Mamba- als auch Hybrid-Mamba-Transformer-Modelle gemäß der Open LLM Leaderboard. Aufgrund seiner Architektur ist Falcon Mamba 7B beim Inferenzprozess signifikant schneller und erfordert wesentlich weniger Speicherplatz für die Generierung langer Sequenzen. Obwohl jüngste Studien nahelegen, dass Hybrid-Mamba-Transformer-Modelle reine Architekturentwürfe übertreffen, zeigen wir, dass selbst das reine Mamba-Design ähnliche oder sogar überlegene Ergebnisse im Vergleich zu den Transformer- und Hybrid-Designs erzielen kann. Die Gewichte unserer Implementierung von Falcon Mamba 7B sind unter einer großzügigen Lizenz öffentlich verfügbar unter https://huggingface.co/tiiuae/falcon-mamba-7b.
English
In this technical report, we present Falcon Mamba 7B, a new base large
language model based on the novel Mamba architecture. Falcon Mamba 7B is
trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure
Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based
on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par
with Gemma 7B and outperforms models with different architecture designs, such
as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is
the best-performing Mamba model in the literature at this scale, surpassing
both existing Mamba and hybrid Mamba-Transformer models, according to the Open
LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly
faster at inference and requires substantially less memory for long sequence
generation. Despite recent studies suggesting that hybrid Mamba-Transformer
models outperform pure architecture designs, we demonstrate that even the pure
Mamba design can achieve similar, or even superior results compared to the
Transformer and hybrid designs. We make the weights of our implementation of
Falcon Mamba 7B publicly available on
https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.