ChatPaper.aiChatPaper

MambaByte: Token-vrije Selectieve Toestandsruimte Model

MambaByte: Token-free Selective State Space Model

January 24, 2024
Auteurs: Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M Rush
cs.AI

Samenvatting

Token-vrije taalmodellen leren rechtstreeks van ruwe bytes en verwijderen de bias van subwoord-tokenisatie. Werken op bytes resulteert echter in aanzienlijk langere sequenties, en standaard autoregressieve Transformers schalen slecht in dergelijke situaties. We experimenteren met MambaByte, een token-vrije aanpassing van het Mamba state space model, dat autoregressief getraind is op byte-sequenties. Onze experimenten wijzen op de computationele efficiëntie van MambaByte in vergelijking met andere byte-level modellen. We ontdekken ook dat MambaByte concurrerend is met en zelfs beter presteert dan state-of-the-art subwoord-Transformers. Bovendien profiteert MambaByte, dankzij lineaire schaling in lengte, van snellere inferentie in vergelijking met Transformers. Onze bevindingen bevestigen de haalbaarheid van MambaByte in het mogelijk maken van token-vrije taalmodellering.
English
Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
PDF604December 15, 2024