Быстрый байтовый латентный трансформер

Аннотация

Недавние байтовые языковые модели (ЯМ) достигают производительности токеновых моделей, не полагаясь на подсловные словари, однако их практическая применимость ограничена медленной, побайтовой авторегрессионной генерацией. Мы устраняем это узкое место в Byte Latent Transformer (BLT) с помощью новых методов обучения и генерации. Во-первых, мы представляем BLT Diffusion (BLT-D) — новую модель и наш самый быстрый вариант BLT, обученную с использованием вспомогательной блочной диффузионной целевой функции наряду со стандартной функцией потерь предсказания следующего байта. Это позволяет при инференсе генерировать несколько байтов параллельно за каждый шаг декодирования, существенно сокращая количество прямых проходов, необходимых для генерации последовательности. Во-вторых, мы предлагаем два расширения, вдохновленных спекулятивным декодированием, которые обменивают часть этой скорости на более высокое качество генерации: BLT Self-speculation (BLT-S), в котором локальный декодер BLT продолжает генерацию за пределы обычных границ патчей для создания черновых байтов, которые затем верифицируются одним полным прямым проходом модели; и BLT Diffusion+Verification (BLT-DV), который дополняет BLT-D авторегрессионным шагом верификации после диффузионной генерации. Все методы позволяют достичь расчетной стоимости пропускной способности памяти более чем на 50% ниже, чем у BLT, в задачах генерации. Каждый подход обладает своими уникальными преимуществами, совместно устраняя ключевые барьеры на пути практического использования байтовых языковых моделей.

English

Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.

Быстрый байтовый латентный трансформер

Fast Byte Latent Transformer

Аннотация

Support