RecurrentGemma: 効率的なオープン言語モデルのためのTransformerを超えて
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
April 11, 2024
著者: Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz GUStavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas
cs.AI
要旨
我々は、Googleの新規Griffinアーキテクチャを採用したオープン言語モデル「RecurrentGemma」を紹介する。Griffinは、線形再帰と局所的なアテンションを組み合わせることで、言語処理において優れた性能を発揮する。固定サイズの状態を持つため、メモリ使用量を削減し、長いシーケンスに対する効率的な推論を可能にする。我々は、20億の非埋め込みパラメータを持つ事前学習済みモデルと、指示チューニングされたバリアントを提供する。これらのモデルは、より少ないトークンで学習されているにもかかわらず、Gemma-2Bと同等の性能を達成している。
English
We introduce RecurrentGemma, an open language model which uses Google's novel
Griffin architecture. Griffin combines linear recurrences with local attention
to achieve excellent performance on language. It has a fixed-sized state, which
reduces memory use and enables efficient inference on long sequences. We
provide a pre-trained model with 2B non-embedding parameters, and an
instruction tuned variant. Both models achieve comparable performance to
Gemma-2B despite being trained on fewer tokens.Summary
AI-Generated Summary