Falcon Mamba: O Primeiro Modelo de Linguagem Competitivo de 7B Sem Atenção
Falcon Mamba: The First Competitive Attention-free 7B Language Model
October 7, 2024
Autores: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI
Resumo
Neste relatório técnico, apresentamos o Falcon Mamba 7B, um novo modelo de linguagem baseado na arquitetura inovadora Mamba. O Falcon Mamba 7B é treinado em 5,8 trilhões de tokens com misturas de dados cuidadosamente selecionadas. Como um modelo puramente baseado em Mamba, o Falcon Mamba 7B supera os principais modelos de peso aberto baseados em Transformers, como Mistral 7B, Llama3.1 8B e Falcon2 11B. Ele está em pé de igualdade com o Gemma 7B e supera modelos com diferentes arquiteturas, como RecurrentGemma 9B e RWKV-v6 Finch 7B/14B. Atualmente, o Falcon Mamba 7B é o modelo Mamba de melhor desempenho na literatura nessa escala, superando tanto os modelos Mamba existentes quanto os modelos híbridos Mamba-Transformer, de acordo com o Open LLM Leaderboard. Devido à sua arquitetura, o Falcon Mamba 7B é significativamente mais rápido na inferência e requer substancialmente menos memória para geração de sequências longas. Apesar de estudos recentes sugerirem que modelos híbridos Mamba-Transformer superam os designs de arquitetura pura, demonstramos que até mesmo o design puro de Mamba pode alcançar resultados semelhantes, ou até superiores, em comparação com os designs Transformer e híbridos. Disponibilizamos os pesos de nossa implementação do Falcon Mamba 7B publicamente em https://huggingface.co/tiiuae/falcon-mamba-7b, sob uma licença permissiva.
English
In this technical report, we present Falcon Mamba 7B, a new base large
language model based on the novel Mamba architecture. Falcon Mamba 7B is
trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure
Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based
on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par
with Gemma 7B and outperforms models with different architecture designs, such
as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is
the best-performing Mamba model in the literature at this scale, surpassing
both existing Mamba and hybrid Mamba-Transformer models, according to the Open
LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly
faster at inference and requires substantially less memory for long sequence
generation. Despite recent studies suggesting that hybrid Mamba-Transformer
models outperform pure architecture designs, we demonstrate that even the pure
Mamba design can achieve similar, or even superior results compared to the
Transformer and hybrid designs. We make the weights of our implementation of
Falcon Mamba 7B publicly available on
https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.Summary
AI-Generated Summary