Schneller Byte-Latent-Transformer

Zusammenfassung

Jüngste byteweise Sprachmodelle (LMs) erreichen die Leistung tokenbasierter Modelle, ohne auf Subwortvokabulare angewiesen zu sein, doch ihr Nutzen wird durch die langsame, byteweise autoregressive Generierung eingeschränkt. Wir adressieren diesen Engpass im Byte Latent Transformer (BLT) durch neue Trainings- und Generierungstechniken. Erstens führen wir BLT Diffusion (BLT-D) ein, ein neues Modell und unsere schnellste BLT-Variante, die mit einem zusätzlichen blockweisen Diffusionsziel neben dem standardmäßigen nächsten-Byte-Vorhersageverlust trainiert wird. Dies ermöglicht eine Inferenzprozedur, die mehrere Bytes pro Dekodierschritt parallel generiert und so die Anzahl der erforderlichen Vorwärtsdurchläufe zur Erzeugung einer Sequenz erheblich reduziert. Zweitens schlagen wir zwei Erweiterungen vor, die von spekulativem Dekodieren inspiriert sind und einen Teil dieser Geschwindigkeit gegen eine höhere Generierungsqualität eintauschen: BLT-Selbstspekulation (BLT-S), bei der der lokale Dekoder von BLT über seine normalen Patch-Grenzen hinaus weiter generiert, um Bytes zu entwerfen, die dann mit einem einzigen vollständigen Modellvorwärtsdurchlauf verifiziert werden; und BLT-Diffusion+Verifikation (BLT-DV), die BLT-D um einen autoregressiven Verifikationsschritt nach der diffusionsbasierten Generierung ergänzt. Alle Methoden können eine geschätzte Speicherbandbreitenkostenersparnis von über 50 % im Vergleich zu BLT bei Generierungsaufgaben erzielen. Jeder Ansatz bietet seine eigenen einzigartigen Vorteile, die gemeinsam wesentliche Hindernisse für den praktischen Einsatz byteweiser LMs beseitigen.

English

Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.

Schneller Byte-Latent-Transformer

Fast Byte Latent Transformer

Zusammenfassung

Support