ChatPaper.aiChatPaper

RecurrentGemma: 트랜스포머를 넘어서는 효율적인 오픈 언어 모델

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

April 11, 2024
저자: Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz GUStavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas
cs.AI

초록

우리는 Google의 새로운 Griffin 아키텍처를 사용한 오픈 언어 모델인 RecurrentGemma를 소개합니다. Griffin은 선형 회귀(linear recurrences)와 지역적 주의(local attention)를 결합하여 언어 처리에서 우수한 성능을 달성합니다. 이 모델은 고정 크기의 상태를 가지며, 이는 메모리 사용을 줄이고 긴 시퀀스에서도 효율적인 추론을 가능하게 합니다. 우리는 20억 개의 비임베딩 파라미터를 가진 사전 학습된 모델과 지시 튜닝된 변형 모델을 제공합니다. 두 모델 모두 더 적은 토큰으로 학습되었음에도 불구하고 Gemma-2B와 비슷한 성능을 보입니다.
English
We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.

Summary

AI-Generated Summary

PDF482December 15, 2024