RecurrentGemma : Dépasser les Transformers pour des modèles de langage ouverts efficaces

Résumé

Nous présentons RecurrentGemma, un modèle de langage ouvert qui utilise la nouvelle architecture Griffin de Google. Griffin combine des récurrences linéaires avec une attention locale pour obtenir d'excellentes performances en traitement du langage. Il possède un état de taille fixe, ce qui réduit l'utilisation de la mémoire et permet une inférence efficace sur de longues séquences. Nous fournissons un modèle pré-entraîné avec 2 milliards de paramètres hors plongement lexical, ainsi qu'une variante ajustée par instruction. Les deux modèles atteignent des performances comparables à Gemma-2B malgré un entraînement sur moins de tokens.

English

We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.

RecurrentGemma : Dépasser les Transformers pour des modèles de langage ouverts efficaces

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Résumé

Support