Transformateur latent d'octets rapide

Résumé

Les récents modèles de langage (ML) au niveau des octets atteignent des performances équivalentes à celles des modèles basés sur des tokens sans recourir à des vocabulaires de sous-mots, mais leur utilité est limitée par une génération autorégressive lente, octet par octet. Nous surmontons ce goulot d'étranglement dans le Byte Latent Transformer (BLT) grâce à de nouvelles techniques d'apprentissage et de génération. Premièrement, nous introduisons BLT Diffusion (BLT-D), un nouveau modèle et notre variante BLT la plus rapide, entraînée avec un objectif de diffusion auxiliaire par blocs en complément de la perte standard de prédiction du prochain octet. Cela permet une procédure d'inférence qui génère plusieurs octets en parallèle à chaque étape de décodage, réduisant considérablement le nombre de passages avant nécessaires pour générer une séquence. Deuxièmement, nous proposons deux extensions inspirées du décodage spéculatif, qui échangent une partie de cette rapidité contre une meilleure qualité de génération : BLT Auto-spéculation (BLT-S), où le décodeur local de BLT continue de générer au-delà de ses limites de patch normales pour produire des brouillons d'octets, qui sont ensuite vérifiés par un seul passage avant du modèle complet ; et BLT Diffusion+Vérification (BLT-DV), qui enrichit BLT-D avec une étape de vérification autorégressive après la génération basée sur la diffusion. Toutes ces méthodes peuvent atteindre un coût estimé de bande passante mémoire supérieur de plus de 50 % à celui de BLT sur les tâches de génération. Chaque approche offre ses propres avantages, levant ensemble les principaux obstacles à l'utilisation pratique des ML au niveau des octets.

English

Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.

Transformateur latent d'octets rapide

Fast Byte Latent Transformer

Résumé

Support