Byte Latent Transformer: Patches Schalen Beter Dan Tokens

Samenvatting

We introduceren de Byte Latent Transformer (BLT), een nieuwe architectuur op byte-niveau voor LLM, die voor het eerst overeenkomt met de prestaties van op tokenisatie gebaseerde LLM op schaal met aanzienlijke verbeteringen in inferentie-efficiëntie en robuustheid. BLT codeert bytes in dynamisch formaat patches, die dienen als de primaire rekeneenheden. Patches worden op basis van de entropie van de volgende byte opgesplitst, waarbij meer rekencapaciteit en modelcapaciteit worden toegewezen waar verhoogde complexiteit van gegevens dit vereist. We presenteren de eerste FLOP-gecontroleerde schalingsstudie van modellen op byte-niveau tot 8B parameters en 4T trainingsbytes. Onze resultaten tonen de haalbaarheid aan van het schalen van modellen die zijn getraind op ruwe bytes zonder een vast vocabulaire. Zowel de trainings- als inferentie-efficiëntie verbeteren door dynamisch lange patches te selecteren wanneer de gegevens voorspelbaar zijn, samen met kwalitatieve verbeteringen in redenering en generalisatie naar lange staarten. Over het algemeen laat BLT aanzienlijk betere schaling zien dan op tokenisatie gebaseerde modellen voor vaste inferentiekosten, door zowel de patch- als modelgrootte tegelijkertijd te vergroten.

English

We introduce the Byte Latent Transformer (BLT), a new byte-level LLM architecture that, for the first time, matches tokenization-based LLM performance at scale with significant improvements in inference efficiency and robustness. BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented based on the entropy of the next byte, allocating more compute and model capacity where increased data complexity demands it. We present the first FLOP controlled scaling study of byte-level models up to 8B parameters and 4T training bytes. Our results demonstrate the feasibility of scaling models trained on raw bytes without a fixed vocabulary. Both training and inference efficiency improve due to dynamically selecting long patches when data is predictable, along with qualitative improvements on reasoning and long tail generalization. Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size.

Byte Latent Transformer: Patches Schalen Beter Dan Tokens

Byte Latent Transformer: Patches Scale Better Than Tokens

Samenvatting

Support