ChatPaper.aiChatPaper

Falcon Mamba: Il Primo Modello Linguistico 7B Competitivo Senza Attivazione dell'Attenzione

Falcon Mamba: The First Competitive Attention-free 7B Language Model

October 7, 2024
Autori: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
cs.AI

Abstract

In questo rapporto tecnico, presentiamo Falcon Mamba 7B, un nuovo modello di linguaggio di base di grandi dimensioni basato sulla nuova architettura Mamba. Falcon Mamba 7B è stato addestrato su 5,8 trilioni di token con miscele di dati accuratamente selezionate. Come modello basato esclusivamente su Mamba, Falcon Mamba 7B supera i principali modelli open-weight basati su Transformers, come Mistral 7B, Llama3.1 8B e Falcon2 11B. È alla pari con Gemma 7B e supera i modelli con diverse architetture, come RecurrentGemma 9B e RWKV-v6 Finch 7B/14B. Attualmente, Falcon Mamba 7B è il modello Mamba di maggior successo nella letteratura a questa scala, superando sia i modelli esistenti Mamba che i modelli ibridi Mamba-Transformer, secondo la classifica Open LLM Leaderboard. Grazie alla sua architettura, Falcon Mamba 7B è significativamente più veloce nell'inferenza e richiede notevolmente meno memoria per la generazione di sequenze lunghe. Nonostante recenti studi suggeriscano che i modelli ibridi Mamba-Transformer superino i design di architettura pura, dimostriamo che anche il design puro di Mamba può ottenere risultati simili, o addirittura superiori, rispetto ai design di Transformer e ibridi. Mettiamo a disposizione pubblicamente i pesi della nostra implementazione di Falcon Mamba 7B su https://huggingface.co/tiiuae/falcon-mamba-7b, con una licenza permissiva.
English
In this technical report, we present Falcon Mamba 7B, a new base large language model based on the novel Mamba architecture. Falcon Mamba 7B is trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par with Gemma 7B and outperforms models with different architecture designs, such as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is the best-performing Mamba model in the literature at this scale, surpassing both existing Mamba and hybrid Mamba-Transformer models, according to the Open LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly faster at inference and requires substantially less memory for long sequence generation. Despite recent studies suggesting that hybrid Mamba-Transformer models outperform pure architecture designs, we demonstrate that even the pure Mamba design can achieve similar, or even superior results compared to the Transformer and hybrid designs. We make the weights of our implementation of Falcon Mamba 7B publicly available on https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.
PDF362November 16, 2024