Transformador Latente de Byte Rápido

Resumen

Los modelos lingüísticos a nivel de bytes (LM) igualan el rendimiento de los modelos a nivel de tokens sin depender de vocabularios de subpalabras, pero su utilidad se ve limitada por una generación autoregresiva lenta, byte por byte. Abordamos este cuello de botella en el Transformer Latente de Bytes (BLT) mediante nuevas técnicas de entrenamiento y generación. Primero, presentamos BLT Diffusion (BLT-D), un nuevo modelo y nuestra variante más rápida de BLT, entrenada con un objetivo auxiliar de difusión por bloques junto con la pérdida estándar de predicción del siguiente byte. Esto permite un procedimiento de inferencia que genera múltiples bytes en paralelo por paso de decodificación, reduciendo sustancialmente el número de pasos hacia adelante necesarios para generar una secuencia. Segundo, proponemos dos extensiones inspiradas en la decodificación especulativa que intercambian parte de esta velocidad por una mayor calidad de generación: BLT Autoespeculación (BLT-S), en la que el decodificador local de BLT continúa generando más allá de sus límites normales de fragmentos para esbozar bytes, que luego se verifican con un único paso hacia adelante del modelo completo; y BLT Diffusion+Verificación (BLT-DV), que amplía BLT-D con un paso de verificación autoregresivo después de la generación basada en difusión. Todos los métodos pueden lograr un costo estimado de ancho de banda de memoria más de un 50% menor que BLT en tareas de generación. Cada enfoque ofrece sus propias ventajas únicas, eliminando juntos barreras clave para el uso práctico de los LM a nivel de bytes.

English

Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.

Transformador Latente de Byte Rápido

Fast Byte Latent Transformer

Resumen

Support