Transformador Latente de Byte: Patches Escalam Melhor do que TokensByte Latent Transformer: Patches Scale Better Than Tokens
Apresentamos o Byte Latent Transformer (BLT), uma nova arquitetura de Modelo de Linguagem a nível de byte que, pela primeira vez, alcança o desempenho de modelos baseados em tokenização em escala, com melhorias significativas na eficiência e robustez da inferência. O BLT codifica bytes em patches de tamanhos dinâmicos, que funcionam como as principais unidades de computação. Os patches são segmentados com base na entropia do próximo byte, alocando mais capacidade de computação e do modelo onde a complexidade dos dados aumenta. Apresentamos o primeiro estudo de escalonamento controlado por FLOP de modelos a nível de byte com até 8B de parâmetros e 4T de bytes de treinamento. Nossos resultados demonstram a viabilidade de escalar modelos treinados em bytes brutos sem um vocabulário fixo. Tanto a eficiência de treinamento quanto a de inferência melhoram devido à seleção dinâmica de patches longos quando os dados são previsíveis, juntamente com melhorias qualitativas no raciocínio e generalização de longo alcance. No geral, para custos de inferência fixos, o BLT mostra um escalonamento significativamente melhor do que os modelos baseados em tokenização, ao mesmo tempo em que aumenta tanto o tamanho do patch quanto do modelo.