ChatPaper.aiChatPaper

RecurrentGemma: Superando os Transformers para Modelos de Linguagem Aberta Eficientes

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

April 11, 2024
Autores: Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz GUStavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas
cs.AI

Resumo

Apresentamos o RecurrentGemma, um modelo de linguagem aberto que utiliza a nova arquitetura Griffin da Google. O Griffin combina recorrências lineares com atenção local para alcançar um desempenho excepcional em tarefas de linguagem. Ele possui um estado de tamanho fixo, o que reduz o uso de memória e permite inferência eficiente em sequências longas. Disponibilizamos um modelo pré-treinado com 2 bilhões de parâmetros não-embutidos e uma variante ajustada por instruções. Ambos os modelos alcançam desempenho comparável ao Gemma-2B, apesar de terem sido treinados com menos tokens.
English
We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.
PDF472December 15, 2024