MambaByte: Token-vrije Selectieve Toestandsruimte Model
MambaByte: Token-free Selective State Space Model
January 24, 2024
Auteurs: Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M Rush
cs.AI
Samenvatting
Token-vrije taalmodellen leren rechtstreeks van ruwe bytes en verwijderen de bias
van subwoord-tokenisatie. Werken op bytes resulteert echter in aanzienlijk
langere sequenties, en standaard autoregressieve Transformers schalen slecht in
dergelijke situaties. We experimenteren met MambaByte, een token-vrije aanpassing van het Mamba
state space model, dat autoregressief getraind is op byte-sequenties. Onze experimenten
wijzen op de computationele efficiëntie van MambaByte in vergelijking met andere byte-level
modellen. We ontdekken ook dat MambaByte concurrerend is met en zelfs beter presteert dan
state-of-the-art subwoord-Transformers. Bovendien profiteert MambaByte, dankzij lineaire schaling in
lengte, van snellere inferentie in vergelijking met Transformers. Onze
bevindingen bevestigen de haalbaarheid van MambaByte in het mogelijk maken van token-vrije
taalmodellering.
English
Token-free language models learn directly from raw bytes and remove the bias
of subword tokenization. Operating on bytes, however, results in significantly
longer sequences, and standard autoregressive Transformers scale poorly in such
settings. We experiment with MambaByte, a token-free adaptation of the Mamba
state space model, trained autoregressively on byte sequences. Our experiments
indicate the computational efficiency of MambaByte compared to other byte-level
models. We also find MambaByte to be competitive with and even outperform
state-of-the-art subword Transformers. Furthermore, owing to linear scaling in
length, MambaByte benefits from fast inference compared to Transformers. Our
findings establish the viability of MambaByte in enabling token-free language
modeling.