高速バイト潜在トランスフォーマー
Fast Byte Latent Transformer
May 8, 2026
著者: Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer
cs.AI
要旨
近年、バイトレベルの言語モデル(LM)は、サブワード語彙に依存せずにトークンレベルのモデルと同等の性能を達成しているが、その実用性は、バイト単位の自己回帰生成が低速であることによって制限されている。我々は、Byte Latent Transformer(BLT)において、新しい学習および生成手法を通じてこのボトルネックに対処する。第一に、BLT Diffusion(BLT-D)を導入する。これは新たなモデルであり、我々の最速のBLT変種で、標準的な次バイト予測損失に加えて、補助的なブロック単位の拡散目的関数で学習される。これにより、デコードステップごとに複数のバイトを並列生成する推論手順が可能となり、系列生成に必要な前方パスの回数が大幅に削減される。第二に、投機的デコードに着想を得た2つの拡張を提案する。これらは、この速度の一部をより高い生成品質と交換するものである。すなわち、BLT Self-speculation(BLT-S)は、BLTの局所デコーダが通常のパッチ境界を超えて生成を継続し、バイトをドラフトし、その後、単一のフルモデル前方パスで検証する。BLT Diffusion+Verification(BLT-DV)は、BLT-Dに拡散ベース生成後の自己回帰検証ステップを追加する。すべての手法は、生成タスクにおいてBLTよりも推定メモリ帯域幅コストを50%以上低減できる可能性がある。各アプローチは独自の利点を持ち、それらを組み合わせることで、バイトレベルのLMの実用的利用に対する主要な障壁を取り除く。
English
Recent byte-level language models (LMs) match the performance of token-level models without relying on subword vocabularies, yet their utility is limited by slow, byte-by-byte autoregressive generation. We address this bottleneck in the Byte Latent Transformer (BLT) through new training and generation techniques. First, we introduce BLT Diffusion (BLT-D), a new model and our fastest BLT variant, trained with an auxiliary block-wise diffusion objective alongside the standard next-byte prediction loss. This enables an inference procedure that generates multiple bytes in parallel per decoding step, substantially reducing the number of forward passes required to generate a sequence. Second, we propose two extensions inspired by speculative decoding that trade some of this speed for higher generation quality: BLT Self-speculation (BLT-S), in which BLT's local decoder continues generating past its normal patch boundaries to draft bytes, which are then verified with a single full-model forward pass; and BLT Diffusion+Verification (BLT-DV), which augments BLT-D with an autoregressive verification step after diffusion-based generation. All methods may achieve an estimated memory-bandwidth cost over 50% lower than BLT on generation tasks. Each approach offers its own unique advantages, together removing key barriers to the practical use of byte-level LMs.