バイト潜在トランスフォーマー:パッチはトークンよりもスケーリングが優れています。Byte Latent Transformer: Patches Scale Better Than Tokens
Byte Latent Transformer(BLT)を紹介します。これは、初めて、トークン化ベースのLLMの性能を大幅に向上させ、推論効率と頑健性を高めながら、規模で一致させる新しいバイトレベルのLLMアーキテクチャです。BLTは、バイトを動的にサイズ変更可能なパッチにエンコードし、これが計算の主要単位として機能します。パッチは、次のバイトのエントロピーに基づいてセグメント化され、データの複雑さが増すにつれて、より多くの計算とモデル容量が割り当てられます。我々は、8Bパラメータおよび4TトレーニングバイトまでのバイトレベルモデルのFLOP制御スケーリング研究を初めて提案します。結果は、固定された語彙を持たない生のバイトで訓練されたモデルのスケーリングの実現可能性を示しています。データが予測可能な場合、長いパッチを動的に選択することで、トレーニングと推論の効率が向上し、推論コストが固定された場合、パッチとモデルサイズの両方を同時に拡大することで、トークン化ベースのモデルよりもはるかに優れたスケーリングを示すBLTが、推論コストが固定された場合、パッチとモデルサイズの両方を同時に拡大することで、トークン化ベースのモデルよりもはるかに優れたスケーリングを示します。