Byte Latent Transformer: Patches Schalen Beter Dan Tokens
Byte Latent Transformer: Patches Scale Better Than Tokens
December 13, 2024
Auteurs: Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer
cs.AI
Samenvatting
We introduceren de Byte Latent Transformer (BLT), een nieuwe architectuur op byte-niveau voor LLM, die voor het eerst overeenkomt met de prestaties van op tokenisatie gebaseerde LLM op schaal met aanzienlijke verbeteringen in inferentie-efficiëntie en robuustheid. BLT codeert bytes in dynamisch formaat patches, die dienen als de primaire rekeneenheden. Patches worden op basis van de entropie van de volgende byte opgesplitst, waarbij meer rekencapaciteit en modelcapaciteit worden toegewezen waar verhoogde complexiteit van gegevens dit vereist. We presenteren de eerste FLOP-gecontroleerde schalingsstudie van modellen op byte-niveau tot 8B parameters en 4T trainingsbytes. Onze resultaten tonen de haalbaarheid aan van het schalen van modellen die zijn getraind op ruwe bytes zonder een vast vocabulaire. Zowel de trainings- als inferentie-efficiëntie verbeteren door dynamisch lange patches te selecteren wanneer de gegevens voorspelbaar zijn, samen met kwalitatieve verbeteringen in redenering en generalisatie naar lange staarten. Over het algemeen laat BLT aanzienlijk betere schaling zien dan op tokenisatie gebaseerde modellen voor vaste inferentiekosten, door zowel de patch- als modelgrootte tegelijkertijd te vergroten.
English
We introduce the Byte Latent Transformer (BLT), a new byte-level LLM
architecture that, for the first time, matches tokenization-based LLM
performance at scale with significant improvements in inference efficiency and
robustness. BLT encodes bytes into dynamically sized patches, which serve as
the primary units of computation. Patches are segmented based on the entropy of
the next byte, allocating more compute and model capacity where increased data
complexity demands it. We present the first FLOP controlled scaling study of
byte-level models up to 8B parameters and 4T training bytes. Our results
demonstrate the feasibility of scaling models trained on raw bytes without a
fixed vocabulary. Both training and inference efficiency improve due to
dynamically selecting long patches when data is predictable, along with
qualitative improvements on reasoning and long tail generalization. Overall,
for fixed inference costs, BLT shows significantly better scaling than
tokenization-based models, by simultaneously growing both patch and model size.