RecurrentGemma: Voorbij Transformers voor Efficiënte Open Taalmodellen

Samenvatting

We introduceren RecurrentGemma, een open taalmodel dat gebruikmaakt van Google's nieuwe Griffin-architectuur. Griffin combineert lineaire recurrenties met lokale aandacht om uitstekende prestaties op het gebied van taal te bereiken. Het heeft een vaste grootte van de toestand, wat het geheugengebruik vermindert en efficiënte inferentie op lange sequenties mogelijk maakt. We bieden een vooraf getraind model aan met 2B niet-embedding parameters en een variant die is afgestemd op instructies. Beide modellen bereiken vergelijkbare prestaties als Gemma-2B, ondanks dat ze zijn getraind op minder tokens.

English

We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.

RecurrentGemma: Voorbij Transformers voor Efficiënte Open Taalmodellen

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Samenvatting

Support