Falcon Mamba: Первая конкурентоспособная модель языка 7B без внимания
Falcon Mamba: The First Competitive Attention-free 7B Language Model
October 7, 2024
Авторы: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI
Аннотация
В данном техническом отчете мы представляем Falcon Mamba 7B, новую базовую крупную модель языка на основе новой архитектуры Mamba. Falcon Mamba 7B обучена на 5,8 триллионах токенов с тщательно подобранными смесями данных. Как чистая модель на основе Mamba, Falcon Mamba 7B превосходит ведущие модели с открытым весом на основе трансформеров, такие как Mistral 7B, Llama3.1 8B и Falcon2 11B. Она находится на уровне Gemma 7B и превосходит модели с различными архитектурными конструкциями, такие как RecurrentGemma 9B и RWKV-v6 Finch 7B/14B. В настоящее время Falcon Mamba 7B является наилучшей моделью Mamba в литературе на данном масштабе, превосходя как существующие модели Mamba, так и гибридные модели Mamba-трансформеры, согласно рейтингу Open LLM Leaderboard. Благодаря своей архитектуре Falcon Mamba 7B значительно быстрее в выводе и требует значительно меньше памяти для генерации длинных последовательностей. Несмотря на недавние исследования, указывающие на то, что гибридные модели Mamba-трансформеры превосходят чистые архитектурные конструкции, мы демонстрируем, что даже чистый дизайн Mamba может достичь аналогичных или даже более высоких результатов по сравнению с дизайнами трансформеров и гибридами. Мы делаем веса нашей реализации Falcon Mamba 7B общедоступными на https://huggingface.co/tiiuae/falcon-mamba-7b, под лицензией, позволяющей широкое использование.
English
In this technical report, we present Falcon Mamba 7B, a new base large
language model based on the novel Mamba architecture. Falcon Mamba 7B is
trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure
Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based
on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par
with Gemma 7B and outperforms models with different architecture designs, such
as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is
the best-performing Mamba model in the literature at this scale, surpassing
both existing Mamba and hybrid Mamba-Transformer models, according to the Open
LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly
faster at inference and requires substantially less memory for long sequence
generation. Despite recent studies suggesting that hybrid Mamba-Transformer
models outperform pure architecture designs, we demonstrate that even the pure
Mamba design can achieve similar, or even superior results compared to the
Transformer and hybrid designs. We make the weights of our implementation of
Falcon Mamba 7B publicly available on
https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.Summary
AI-Generated Summary