Snelle Byte Latente Transformer

Samenvatting

Recente byte-level taalmodellen (LMs) presteren even goed als token-level modellen zonder gebruik te maken van subwoordvocabulaires, maar hun bruikbaarheid wordt beperkt door trage, byte-voor-byte autoregressieve generatie. We pakken deze bottleneck aan in de Byte Latent Transformer (BLT) met nieuwe trainings- en generatietechnieken. Ten eerste introduceren we BLT Diffusion (BLT-D), een nieuw model en onze snelste BLT-variant, getraind met een additioneel bloksgewijs diffusiedoel naast het standaard next-byte voorspellingsverlies. Dit maakt een inferentieprocedure mogelijk die meerdere bytes parallel per decoderingsstap genereert, wat het aantal benodigde forward passes om een reeks te genereren aanzienlijk vermindert. Ten tweede stellen we twee uitbreidingen voor die geïnspireerd zijn op speculatieve decodering, die een deel van deze snelheid inruilen voor een hogere generatiekwaliteit: BLT Self-speculation (BLT-S), waarbij de lokale decoder van BLT verder gaat met genereren over de normale patchgrenzen heen om conceptbytes te ontwerpen, die vervolgens worden geverifieerd met een enkele full-model forward pass; en BLT Diffusion+Verification (BLT-DV), dat BLT-D aanvult met een autoregressieve verificatiestap na diffusie-gebaseerde generatie. Alle methoden kunnen een geschatte geheugenbandbreedtekosten van meer dan 50% lager dan BLT behalen bij generatietaken. Elke benadering biedt zijn eigen unieke voordelen, die samen belangrijke barrières voor het praktische gebruik van byte-level LMs wegnemen.

English

Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.

Snelle Byte Latente Transformer

Fast Byte Latent Transformer

Samenvatting

Support