RecurrentGemma: Superando los Transformers para Modelos de Lenguaje Abiertos Eficientes

Resumen

Presentamos RecurrentGemma, un modelo de lenguaje abierto que utiliza la novedosa arquitectura Griffin de Google. Griffin combina recurrencias lineales con atención local para lograr un rendimiento excepcional en tareas de lenguaje. Posee un estado de tamaño fijo, lo que reduce el uso de memoria y permite una inferencia eficiente en secuencias largas. Ofrecemos un modelo preentrenado con 2B parámetros no incrustados, junto con una variante ajustada por instrucciones. Ambos modelos alcanzan un rendimiento comparable a Gemma-2B a pesar de haber sido entrenados con menos tokens.

English

We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.

RecurrentGemma: Superando los Transformers para Modelos de Lenguaje Abiertos Eficientes

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Resumen

Support